2013-10-03 14 views
7

Tôi đang sử dụng một mẩu ảnh số CrawlSpider và xác định lò phản ứng xoắn để điều khiển trình thu thập thông tin của tôi. Trong các bài kiểm tra, tôi đã thu thập thông tin một trang web tin tức thu thập nhiều hơn một GB dữ liệu. Chủ yếu là tôi quan tâm đến những câu chuyện mới nhất vì vậy tôi đang tìm kiếm một cách để giới hạn số lượng trang, byte hoặc giây được yêu cầu.Phế liệu: Giới hạn số lượng yêu cầu hoặc yêu cầu byte

Có một cách phổ biến để xác định giới hạn của

  • request_bytes
  • request_counts hoặc
  • thời gian chạy trong vài giây?

Trả lời

16

Trong scrapy có lớp scrapy.contrib.closespider.CloseSpider. Bạn có thể xác định các biến CLOSESPIDER_TIMEOUT, CLOSESPIDER_ITEMCOUNT, CLOSESPIDER_PAGECOUNTCLOSESPIDER_ERRORCOUNT.

Con nhện sẽ tự động đóng khi các tiêu chuẩn được đáp ứng: http://doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.contrib.closespider

+0

là có một cách CLOSESIPDER_PAGECOUNT thể được thiết lập tự động cho mỗi nhện? –

+1

@ImanAkbari: Vui lòng tạo câu hỏi phù hợp cho vấn đề của bạn. – Jon

Các vấn đề liên quan