Trình thu thập thông tin web - Bỏ qua tệp Robots.txt?

Một số máy chủ có tệp robots.txt để ngăn trình thu thập dữ liệu web thu thập dữ liệu thông qua trang web của họ. Có cách nào để làm cho trình thu thập dữ liệu web bỏ qua tệp robots.txt không? Tôi đang sử dụng Mechanize cho python.Trình thu thập thông tin web - Bỏ qua tệp Robots.txt?

Nguồn

2011-12-05 Craig Locke

Nếu bạn làm điều này, có thể có vấn đề pháp lý –

Xin đừng làm điều này. –

Việc bỏ qua điều này không tốt vì đây là câu hỏi hợp pháp. Tuy nhiên đây là một ý tưởng tồi. –

Các documentation cho mechanize có mẫu này mã:

br = mechanize.Browser() 
.... 
# Ignore robots.txt. Do not do this without thought and consideration. 
br.set_handle_robots(False)

Điều đó không chính xác bạn muốn gì.

Nguồn

2011-12-05 14:10:33

Tôi khuyên bạn nên nêu vấn đề của mình về [gắn cờ câu hỏi này] (http://stackoverflow.com/questions/8373398/creating-replacement-tapplication-for-experimentation) trên meta một lần nữa. Dường như có ý kiến khác nhau về cách xử lý các vi phạm bản quyền bị nghi ngờ và câu trả lời cuối cùng sẽ giúp ích. – NullUserException

@NullUser sẽ thực hiện. Tôi sẽ cố gắng và tập hợp lại ở một nơi tất cả những lời khuyên mâu thuẫn mà tôi đã có, và xem liệu chúng ta có thể không đến được một quan điểm chung hay không! –

This trông giống như những gì bạn cần:

from mechanize import Browser 
br = Browser() 

# Ignore robots.txt 
br.set_handle_robots(False)

nhưng bạn biết những gì bạn đang làm ...

Nguồn

2011-12-05 14:09:31 eumiro

Trình thu thập thông tin web - Bỏ qua tệp Robots.txt?

Trả lời

Các vấn đề liên quan