Một số máy chủ có tệp robots.txt để ngăn trình thu thập dữ liệu web thu thập dữ liệu thông qua trang web của họ. Có cách nào để làm cho trình thu thập dữ liệu web bỏ qua tệp robots.txt không? Tôi đang sử dụng Mechanize cho python.Trình thu thập thông tin web - Bỏ qua tệp Robots.txt?
Trả lời
Các documentation cho mechanize có mẫu này mã:
br = mechanize.Browser()
....
# Ignore robots.txt. Do not do this without thought and consideration.
br.set_handle_robots(False)
Điều đó không chính xác bạn muốn gì.
Tôi khuyên bạn nên nêu vấn đề của mình về [gắn cờ câu hỏi này] (http://stackoverflow.com/questions/8373398/creating-replacement-tapplication-for-experimentation) trên meta một lần nữa. Dường như có ý kiến khác nhau về cách xử lý các vi phạm bản quyền bị nghi ngờ và câu trả lời cuối cùng sẽ giúp ích. – NullUserException
@NullUser sẽ thực hiện. Tôi sẽ cố gắng và tập hợp lại ở một nơi tất cả những lời khuyên mâu thuẫn mà tôi đã có, và xem liệu chúng ta có thể không đến được một quan điểm chung hay không! –
This trông giống như những gì bạn cần:
from mechanize import Browser
br = Browser()
# Ignore robots.txt
br.set_handle_robots(False)
nhưng bạn biết những gì bạn đang làm ...
- 1. Trình thu thập thông tin web trong ruby
- 2. Thư viện trình thu thập thông tin web Java
- 3. Phát triển trình thu thập thông tin và trình thu thập thông tin cho công cụ tìm kiếm dọc
- 4. Googlebots Bỏ qua robots.txt?
- 5. Thu thập thông tin Internet
- 6. Thu thập thông tin cửa hàng Google Play
- 7. Làm cách nào để cho phép trình thu thập thông tin truy cập vào chỉ mục index.php, sử dụng robots.txt?
- 8. Asp.net Request.Browser.Crawler - Danh sách trình thu thập thông tin động?
- 9. Công cụ Trình thu thập thông tin web tốt là gì?
- 10. Robots.txt - Định dạng thích hợp cho Trễ thu thập thông tin cho nhiều tác nhân người dùng là gì?
- 11. Bỏ qua url trong robots.txt với thông số cụ thể?
- 12. Thu thập thông tin không chính xác CrawlSpider không thu thập thông tin trang đích đầu tiên
- 13. Thu thập trên các tệp thông thường
- 14. Cách thu thập thông tin tương tự như panopticlick.eff.org
- 15. cách trình thu thập dữ liệu web xử lý javascript
- 16. Làm cho trình thu thập dữ liệu web/spider
- 17. Có thể kiểm soát tốc độ thu thập dữ liệu bằng robots.txt không?
- 18. Các trang web AJAX có thể thu thập thông tin bằng công cụ tìm kiếm không?
- 19. Cách tạo start_urls động trong thu thập thông tin?
- 20. C# trình duyệt không đầu có hỗ trợ javascript cho trình thu thập thông tin
- 21. Tôi có thể chặn trình thu thập thông tin tìm kiếm cho mọi trang web trên máy chủ web Apache không?
- 22. Tăng thu thập thông tin/lập chỉ mục của Google?
- 23. Thu thập thông tin hệ thống và môi trường
- 24. Trình thu thập thông tin nguồn mở nào là tốt nhất?
- 25. Thẻ meta và robots.txt
- 26. Tối ưu hóa/Tùy chỉnh Tìm kiếm Sharepoint Thu thập thông tin
- 27. Thu thập thông tin về lập lịch trình chuỗi trên Linux
- 28. Công cụ trình thu thập thông tin web nguồn mở tốt nhất được viết bằng Java là gì?
- 29. Tại sao ví dụ về trình thu thập thông tin đưa ra lỗi?
- 30. Trình thu thập dữ liệu web đơn giản trong C#
Nếu bạn làm điều này, có thể có vấn đề pháp lý –
Xin đừng làm điều này. –
Việc bỏ qua điều này không tốt vì đây là câu hỏi hợp pháp. Tuy nhiên đây là một ý tưởng tồi. –