Tôi có một trình thu thập dữ liệu web đơn giản để yêu cầu tất cả các trang từ sơ đồ trang web của một trang web mà tôi cần phải lưu vào bộ nhớ cache và lập chỉ mục. Sau một số yêu cầu, trang web bắt đầu phân phối các trang trống.Nghi thức đúng đắn cho một trình thu thập dữ liệu http yêu cầu
Không có gì trong số robots.txt
ngoại trừ liên kết đến sơ đồ trang web của họ, vì vậy tôi cho rằng tôi không vi phạm "quy tắc" của họ. Tôi có một tiêu đề mô tả liên kết đến chính xác ý định của tôi là gì và các trang duy nhất tôi thu thập thông tin từ sơ đồ trang web của họ.
Các mã trạng thái http vẫn ổn, vì vậy tôi chỉ có thể tưởng tượng chúng đang ngăn chặn số lượng lớn các yêu cầu http trong một khoảng thời gian ngắn. Những gì được coi là một số tiền hợp lý của sự chậm trễ giữa các yêu cầu?
Có bất kỳ cân nhắc nào khác mà tôi đã bỏ qua có khả năng gây ra sự cố này không?
ý của bạn là gì không có gì trong robots.txt ngoại trừ một liên kết đến sơ đồ trang web của họ? – freespace
không có nội dung nào không được phép và cho phép của họ là * – Adam