Tôi đã chú ý đến các trình theo dõi của tôi rằng các bot đang truy cập vào trang web của tôi ALOT. Tôi có nên thay đổi hoặc chỉnh sửa robots.txt hoặc thay đổi gì đó không? Bạn không chắc chắn nếu đó là tốt, bởi vì họ đang lập chỉ mục hoặc những gì?Tôi có nên loại bỏ các bot truy cập trang web của mình không?
Trả lời
Tôi có nên thay đổi hoặc chỉnh sửa robots.txt hoặc thay đổi gì đó không?
Phụ thuộc vào bot. Một số bot sẽ vô tình bỏ qua robots.txt. Chúng tôi đã có một vấn đề tương tự cách đây 18 tháng với bot google AD bởi vì khách hàng của chúng tôi đã mua Soooo nhiều quảng cáo. Các chương trình Google AD sẽ (như được ghi lại) bỏ qua các loại trừ ký tự đại diện (*) nhưng nghe rõ ràng bỏ qua.
Hãy nhớ rằng, các bot tôn trọng robots.txt sẽ không thu thập thông tin trang web của bạn. Điều này là không mong muốn nếu bạn muốn họ truy cập vào dữ liệu của bạn để lập chỉ mục.
Giải pháp tốt hơn là tăng tốc hoặc cung cấp nội dung tĩnh cho rô bốt.
Bạn không chắc liệu điều đó có tốt không, vì chúng đang lập chỉ mục hay gì?
Họ có thể lập chỉ mục/cạo/đánh cắp. Tất cả đều giống nhau. Những gì tôi nghĩ rằng bạn muốn là để điều tiết xử lý yêu cầu http của họ dựa trên UserAgents. Cách thực hiện điều này tùy thuộc vào máy chủ web và vùng chứa ứng dụng của bạn.
Như được đề xuất trong các câu trả lời khác, nếu bot là độc hại, thì bạn sẽ cần phải tìm mẫu UserAgent và gửi cho chúng 403 dấu ngoặc đơn. Hoặc, nếu rô bốt độc hại tự động thay đổi chuỗi tác nhân người dùng, bạn có thêm hai tùy chọn:
- Danh sách người dùng trắng - ví dụ: tạo bộ lọc tác nhân người dùng chỉ chấp nhận một số tác nhân người dùng nhất định. Điều này là rất không hoàn hảo.
- cấm IP - tiêu đề http sẽ chứa IP nguồn. Hoặc, nếu bạn đang sử dụng DOS'd (tấn công từ chối dịch vụ), thì bạn có vấn đề lớn hơn
Tôi thực sự không nghĩ rằng việc thay đổi robots.txt sẽ hữu ích, bởi vì chỉ có chương trình GOOD mới tuân theo nó. Tất cả những người khác bỏ qua nó và phân tích nội dung của bạn theo ý họ. Cá nhân tôi sử dụng http://www.codeplex.com/urlrewriter để loại bỏ các rô bốt không mong muốn bằng cách trả lời thư bị cấm nếu chúng được tìm thấy.
Chương trình thư rác không quan tâm đến robots.txt. Bạn có thể chặn chúng với một cái gì đó như mod_security (đó là một plugin Apache khá mát mẻ ở bên phải của chính nó). Hoặc bạn có thể bỏ qua chúng.
Bạn có thể phải sử dụng .htaccess để từ chối một số bot để ghi lại nhật ký của bạn. Xem ở đây: http://spamhuntress.com/2006/02/13/another-hungry-java-bot/
Tôi đã rất nhiều chương trình Java bò trang web của tôi, thêm
SetEnvIfNoCase User-Agent^Java/1. javabot = yes
SetEnvIfNoCase Tác nhân người dùng^Java1. javabot = yes
Từ chối từ env = javabot
khiến chúng dừng lại.Bây giờ họ chỉ nhận được 403 một lần và đó là nó :)
Tôi đã từng làm việc cho một khách hàng có một số chương trình "so sánh giá" thường xuyên truy cập trang web. Vấn đề là tài nguyên phụ trợ của chúng tôi khan hiếm và chi phí tiền mỗi giao dịch.
Sau khi cố gắng chống lại một số trong số này một thời gian, nhưng các chương trình chỉ tiếp tục thay đổi đặc điểm dễ nhận biết của chúng. Chúng tôi đã kết thúc với chiến lược sau:
Đối với mỗi phiên trên máy chủ, chúng tôi xác định liệu người dùng có nhấp vào bất kỳ lúc nào quá nhanh hay không. Sau một số lần lặp lại, chúng tôi sẽ đặt cờ "isRobot" thành true và chỉ cần giảm tốc độ phản hồi trong phiên đó bằng cách thêm các chế độ ngủ. Chúng tôi không nói với người dùng bằng bất kỳ cách nào, vì anh ta chỉ mới bắt đầu một phiên mới trong trường hợp đó.
- 1. Tôi có nên bỏ vào trang lambda của mình hoặc bỏ IEnumerable không?
- 2. Facebook og: loại thẻ meta - tôi có nên tạo trang của riêng mình không?
- 3. Tôi có nên sử dụng Google Web Toolkit cho ứng dụng web mới của mình không?
- 4. Khi nào tôi nên phản hồi các yêu cầu HEAD HTTP trên trang web của mình
- 5. Tôi có nên liệt kê các tệp PDF trong tệp sơ đồ trang web của mình không?
- 6. Làm cách nào để chặn các bot không xác định xấu thu thập dữ liệu trang web của tôi?
- 7. Tôi có nên sử dụng PDO để khử trùng các truy vấn Sql của mình hoặc là "mysql_real_escape_string" đủ không?
- 8. truy cập webcam trong các trang web
- 9. Tôi nên gửi giá trị Loại nội dung nào cho sơ đồ trang web XML của mình?
- 10. Tôi có nên sử dụng Đơn vị hoặc loại bỏ kiểu trả về cho phương thức scala của mình không?
- 11. Tôi nên đặt url trang web của mình ở cài đặt django ở đâu?
- 12. Cách nạp tóm tắt trang web vào Google Bot?
- 13. Bạn có kiểm tra sức khỏe trong ứng dụng web hoặc trang web của mình không?
- 14. Tôi có nên xây dựng ứng dụng web tiếp theo của mình trong ASP.NET MVC không?
- 15. Tại sao tôi nên ký các tệp JAR của mình?
- 16. Tôi có nên ghi lại các phương pháp thử nghiệm đơn vị của mình không?
- 17. không thể loại bỏ thanh cuộn ngang trên trang web của tôi
- 18. Tôi có nên khôi phục các cuộc gọi RPC của mình qua HTTP không?
- 19. Tôi có nên luôn làm cho phương pháp của mình tĩnh khi có thể không?
- 20. Tôi có thể trỏ tên miền của mình đến một trang web Azure không?
- 21. Tại sao tôi không thể truy cập các tệp javascript của mình từ Expressjs/Nodej?
- 22. Làm cách nào để có được thời gian bot Google truy cập lần cuối trang?
- 23. Tôi làm cách nào để mã hóa nội dung của người dùng trên trang web của mình để thậm chí tôi không thể truy cập nội dung?
- 24. Tôi nên theo dõi các mối đe dọa tiềm năng đến trang web của mình như thế nào?
- 25. Làm cách nào để truy cập trang web của tôi (IIS) từ internet?
- 26. Khi nào tôi nên vứt bỏ các đối tượng của mình trong .NET?
- 27. cách phát hiện các công cụ tìm kiếm trên trang web của tôi? như phpBB
- 28. Tôi có nên sử dụng git để triển khai các trang web không?
- 29. Tôi nên làm cách nào để kiến trúc cho ứng dụng iPhone của mình nói chuyện với trang web của mình?
- 30. Tôi có thể truy cập C# enum trong chế độ xem Dao cạo của mình không?
Gotta 'không đồng ý với mục 1 Google tuân theo robots.txt rất tốt. – UnkwnTech
Không đúng khi chúng tôi gặp vấn đề này 18 tháng trước (với www.mytickets.com.au). Đó là một bot AD từ google liên tục kiểm tra các tài nguyên mới. Tôi sẽ kiểm tra nguồn của tôi cho điều này một lần nữa – CVertex
Bạn nói đúng. Trường hợp tôi đã nghĩ đến là: Google bot quảng cáo bỏ qua các trường hợp ký tự đại diện (*) – CVertex