Tôi đang xem xét viết một ứng dụng web đơn giản để trích xuất thông tin từ một trang web dường như không cấm cụ thể điều này.Quy tắc cào trên web
Tôi đã kiểm tra các lựa chọn thay thế khác (ví dụ: RSS, dịch vụ web) để nhận thông tin này, nhưng không có thông tin nào khả dụng ở giai đoạn này.
Mặc dù điều này tôi cũng đã phát triển/duy trì một vài trang web và vì vậy tôi nhận ra rằng nếu cào web được thực hiện một cách ngây thơ/tham lam, nó có thể làm chậm mọi thứ cho người dùng khác và thường trở thành mối phiền toái.
Vì vậy, những gì nghi thức có liên quan về:
- Số lượng yêu cầu mỗi giây/phút/giờ.
- Nội dung tác nhân người dùng HTTP.
- Nội dung của người giới thiệu HTTP.
- Cài đặt bộ nhớ cache HTTP.
- Kích thước bộ đệm cho các tệp/tài nguyên lớn hơn.
- Vấn đề pháp lý và cấp phép.
- Các công cụ hoặc phương pháp thiết kế phù hợp để sử dụng.
- Robots.txt, điều này có liên quan đến việc cào web hay chỉ là trình thu thập thông tin/trình thu thập dữ liệu không?
- Nén như GZip trong yêu cầu.
Cập nhật
Tìm thấy câu hỏi có liên quan này trên Meta: Etiquette of Screen Scaping StackOverflow. Câu trả lời của Jeff Atwood có một số khuyến nghị hữu ích.
câu hỏi khác StackOverflow liên quan:
+1 - Tôi đã tự hỏi bản thân mình. –
Khi nghi ngờ có hay không họ sẽ không thích nó, chỉ cần gửi cho quản trị viên trang web một email và yêu cầu sự cho phép hoặc hỏi họ cách thức/thời điểm họ muốn bạn xóa nó. –
@Rob, gợi ý tốt, nhưng như tôi đã nói với runrunraygun, làm thế nào để bạn tiến hành nếu bạn không nghe lại? – Ash