Tôi có một câu hỏi gồm hai phần.Là một công dân và trang web cạo tốt
Trước tiên, tôi đang viết một trang web-scraper dựa trên các spider CrawlSpider trong Scrapy. Tôi đang nhắm tới việc xóa một trang web có hàng ngàn (có thể vào hàng trăm nghìn) hồ sơ. Những hồ sơ này được chôn 2-3 lớp xuống từ trang bắt đầu. Vì vậy, về cơ bản tôi có nhện bắt đầu trên một trang nhất định, thu thập thông tin cho đến khi tìm thấy một loại bản ghi cụ thể và sau đó phân tích cú pháp html. Những gì tôi đang tự hỏi là những gì phương pháp tồn tại để ngăn chặn nhện của tôi từ quá tải các trang web? Có cách nào để làm điều đó tăng dần hay tạm dừng giữa các yêu cầu khác nhau không?
Thứ hai và có liên quan, có phương pháp nào với Scrapy để kiểm tra trình thu thập thông tin mà không đặt căng thẳng quá mức trên trang web không? Tôi biết bạn có thể giết chương trình trong khi nó chạy, nhưng có cách nào để làm cho kịch bản dừng lại sau khi nhấn một cái gì đó giống như trang đầu tiên có thông tin tôi muốn cạo?
Mọi lời khuyên hoặc tài nguyên sẽ được đánh giá cao.
Tuyệt vời. Cảm ơn nhiều. – user1074057