2009-04-28 23 views
8

Tôi có một trình thu thập dữ liệu web đơn giản để yêu cầu tất cả các trang từ sơ đồ trang web của một trang web mà tôi cần phải lưu vào bộ nhớ cache và lập chỉ mục. Sau một số yêu cầu, trang web bắt đầu phân phối các trang trống.Nghi thức đúng đắn cho một trình thu thập dữ liệu http yêu cầu

Không có gì trong số robots.txt ngoại trừ liên kết đến sơ đồ trang web của họ, vì vậy tôi cho rằng tôi không vi phạm "quy tắc" của họ. Tôi có một tiêu đề mô tả liên kết đến chính xác ý định của tôi là gì và các trang duy nhất tôi thu thập thông tin từ sơ đồ trang web của họ.

Các mã trạng thái http vẫn ổn, vì vậy tôi chỉ có thể tưởng tượng chúng đang ngăn chặn số lượng lớn các yêu cầu http trong một khoảng thời gian ngắn. Những gì được coi là một số tiền hợp lý của sự chậm trễ giữa các yêu cầu?

Có bất kỳ cân nhắc nào khác mà tôi đã bỏ qua có khả năng gây ra sự cố này không?

+0

ý của bạn là gì không có gì trong robots.txt ngoại trừ một liên kết đến sơ đồ trang web của họ? – freespace

+0

không có nội dung nào không được phép và cho phép của họ là * – Adam

Trả lời

8

Mọi trang web đều có các đặc điểm về trình thu thập thông tin và lạm dụng khác nhau.

Chìa khóa cho bất kỳ trình thu thập thông tin nào là để mô phỏng hoạt động của con người và tuân thủ robots.txt.

Thu thập thông tin đầy đủ sẽ theo dõi một số trang web và họ sẽ đóng cửa bạn bất kể bạn đi chậm như thế nào, trong khi một số máy chủ không nhớ trình thu thập dữ liệu nén và hút mọi thứ trong một lần.

  • Nói chung bạn không muốn yêu cầu các trang nhanh hơn 6 mỗi phút (về tốc độ của con người).
  • Bạn sẽ an toàn hơn theo các liên kết để hiển thị trên trang web.
  • Cố gắng bỏ qua các liên kết không hiển thị trên trang web (nhiều người sử dụng honeypots).

Nếu vẫn thất bại, không yêu cầu nhanh hơn một trang mỗi phút. Nếu một trang web chặn bạn ở mức này, thì hãy liên hệ trực tiếp với họ - họ rõ ràng không muốn bạn sử dụng nội dung của họ theo cách đó.

2

Tôi đoán Wikipedia có a decent reference về chủ đề. Tuân theo chúng và, để lịch sự, nhiều hơn một chút.

Ví dụ: tôi có thể sẽ tối đa tốc độ kết nối với một lần truy cập mỗi giây hoặc tôi sẽ mạo hiểm một cuộc tấn công DoS vô ý.

Các vấn đề liên quan