Phế liệu: Giới hạn số lượng yêu cầu hoặc yêu cầu byte

Tôi đang sử dụng một mẩu ảnh số CrawlSpider và xác định lò phản ứng xoắn để điều khiển trình thu thập thông tin của tôi. Trong các bài kiểm tra, tôi đã thu thập thông tin một trang web tin tức thu thập nhiều hơn một GB dữ liệu. Chủ yếu là tôi quan tâm đến những câu chuyện mới nhất vì vậy tôi đang tìm kiếm một cách để giới hạn số lượng trang, byte hoặc giây được yêu cầu.Phế liệu: Giới hạn số lượng yêu cầu hoặc yêu cầu byte

Có một cách phổ biến để xác định giới hạn của

request_bytes
request_counts hoặc
thời gian chạy trong vài giây?

Nguồn

2013-10-03 Jon

Trong scrapy có lớp scrapy.contrib.closespider.CloseSpider. Bạn có thể xác định các biến CLOSESPIDER_TIMEOUT, CLOSESPIDER_ITEMCOUNT, CLOSESPIDER_PAGECOUNT và CLOSESPIDER_ERRORCOUNT.

Con nhện sẽ tự động đóng khi các tiêu chuẩn được đáp ứng: http://doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.contrib.closespider

Nguồn

2013-10-03 14:34:49 Jon

là có một cách CLOSESIPDER_PAGECOUNT thể được thiết lập tự động cho mỗi nhện? –

@ImanAkbari: Vui lòng tạo câu hỏi phù hợp cho vấn đề của bạn. – Jon

Phế liệu: Giới hạn số lượng yêu cầu hoặc yêu cầu byte

Trả lời

Các vấn đề liên quan