2008-11-29 30 views

Trả lời

4

Tôi có nên thay đổi hoặc chỉnh sửa robots.txt hoặc thay đổi gì đó không?

Phụ thuộc vào bot. Một số bot sẽ vô tình bỏ qua robots.txt. Chúng tôi đã có một vấn đề tương tự cách đây 18 tháng với bot google AD bởi vì khách hàng của chúng tôi đã mua Soooo nhiều quảng cáo. Các chương trình Google AD sẽ (như được ghi lại) bỏ qua các loại trừ ký tự đại diện (*) nhưng nghe rõ ràng bỏ qua.

Hãy nhớ rằng, các bot tôn trọng robots.txt sẽ không thu thập thông tin trang web của bạn. Điều này là không mong muốn nếu bạn muốn họ truy cập vào dữ liệu của bạn để lập chỉ mục.

Giải pháp tốt hơn là tăng tốc hoặc cung cấp nội dung tĩnh cho rô bốt.

Bạn không chắc liệu điều đó có tốt không, vì chúng đang lập chỉ mục hay gì?

Họ có thể lập chỉ mục/cạo/đánh cắp. Tất cả đều giống nhau. Những gì tôi nghĩ rằng bạn muốn là để điều tiết xử lý yêu cầu http của họ dựa trên UserAgents. Cách thực hiện điều này tùy thuộc vào máy chủ web và vùng chứa ứng dụng của bạn.

Như được đề xuất trong các câu trả lời khác, nếu bot là độc hại, thì bạn sẽ cần phải tìm mẫu UserAgent và gửi cho chúng 403 dấu ngoặc đơn. Hoặc, nếu rô bốt độc hại tự động thay đổi chuỗi tác nhân người dùng, bạn có thêm hai tùy chọn:

  • Danh sách người dùng trắng - ví dụ: tạo bộ lọc tác nhân người dùng chỉ chấp nhận một số tác nhân người dùng nhất định. Điều này là rất không hoàn hảo.
  • cấm IP - tiêu đề http sẽ chứa IP nguồn. Hoặc, nếu bạn đang sử dụng DOS'd (tấn công từ chối dịch vụ), thì bạn có vấn đề lớn hơn
+0

Gotta 'không đồng ý với mục 1 Google tuân theo robots.txt rất tốt. – UnkwnTech

+1

Không đúng khi chúng tôi gặp vấn đề này 18 tháng trước (với www.mytickets.com.au). Đó là một bot AD từ google liên tục kiểm tra các tài nguyên mới. Tôi sẽ kiểm tra nguồn của tôi cho điều này một lần nữa – CVertex

+0

Bạn nói đúng. Trường hợp tôi đã nghĩ đến là: Google bot quảng cáo bỏ qua các trường hợp ký tự đại diện (*) – CVertex

4

Tôi thực sự không nghĩ rằng việc thay đổi robots.txt sẽ hữu ích, bởi vì chỉ có chương trình GOOD mới tuân theo nó. Tất cả những người khác bỏ qua nó và phân tích nội dung của bạn theo ý họ. Cá nhân tôi sử dụng http://www.codeplex.com/urlrewriter để loại bỏ các rô bốt không mong muốn bằng cách trả lời thư bị cấm nếu chúng được tìm thấy.

3

Chương trình thư rác không quan tâm đến robots.txt. Bạn có thể chặn chúng với một cái gì đó như mod_security (đó là một plugin Apache khá mát mẻ ở bên phải của chính nó). Hoặc bạn có thể bỏ qua chúng.

2

Bạn có thể phải sử dụng .htaccess để từ chối một số bot để ghi lại nhật ký của bạn. Xem ở đây: http://spamhuntress.com/2006/02/13/another-hungry-java-bot/

Tôi đã rất nhiều chương trình Java bò trang web của tôi, thêm

SetEnvIfNoCase User-Agent^Java/1. javabot = yes
SetEnvIfNoCase Tác nhân người dùng^Java1. javabot = yes
Từ chối từ env = javabot

khiến chúng dừng lại.Bây giờ họ chỉ nhận được 403 một lần và đó là nó :)

2

Tôi đã từng làm việc cho một khách hàng có một số chương trình "so sánh giá" thường xuyên truy cập trang web. Vấn đề là tài nguyên phụ trợ của chúng tôi khan hiếm và chi phí tiền mỗi giao dịch.

Sau khi cố gắng chống lại một số trong số này một thời gian, nhưng các chương trình chỉ tiếp tục thay đổi đặc điểm dễ nhận biết của chúng. Chúng tôi đã kết thúc với chiến lược sau:

Đối với mỗi phiên trên máy chủ, chúng tôi xác định liệu người dùng có nhấp vào bất kỳ lúc nào quá nhanh hay không. Sau một số lần lặp lại, chúng tôi sẽ đặt cờ "isRobot" thành true và chỉ cần giảm tốc độ phản hồi trong phiên đó bằng cách thêm các chế độ ngủ. Chúng tôi không nói với người dùng bằng bất kỳ cách nào, vì anh ta chỉ mới bắt đầu một phiên mới trong trường hợp đó.

Các vấn đề liên quan