Tôi đang sử dụng một mẩu ảnh số CrawlSpider
và xác định lò phản ứng xoắn để điều khiển trình thu thập thông tin của tôi. Trong các bài kiểm tra, tôi đã thu thập thông tin một trang web tin tức thu thập nhiều hơn một GB dữ liệu. Chủ yếu là tôi quan tâm đến những câu chuyện mới nhất vì vậy tôi đang tìm kiếm một cách để giới hạn số lượng trang, byte hoặc giây được yêu cầu.Phế liệu: Giới hạn số lượng yêu cầu hoặc yêu cầu byte
Có một cách phổ biến để xác định giới hạn của
- request_bytes
- request_counts hoặc
- thời gian chạy trong vài giây?
là có một cách CLOSESIPDER_PAGECOUNT thể được thiết lập tự động cho mỗi nhện? –
@ImanAkbari: Vui lòng tạo câu hỏi phù hợp cho vấn đề của bạn. – Jon