Tôi đang sử dụng nhiều thứ để thu thập dữ liệu nhiều trang trên một trang web. Biến số start_urls
được sử dụng để xác định các trang được thu thập thông tin. tôi ban đầu sẽ bắt đầu với trang 1, do đó việc xác định start_urls = [1st page]
trong file example_spider.py
start_urls động trong scrapy
Sau khi nhận được thêm thông tin từ trang 1, tôi sẽ xác định những gì các trang tiếp theo để được thu thập, sau đó sẽ gán start_urls
cho phù hợp. Do đó, tôi phải ghi đè lên trên example_spider.py với các thay đổi đối với start_urls = [1st page, 2nd page, ..., Kth page]
, sau đó chạy thu thập dữ liệu một lần nữa.
Đó có phải là cách tiếp cận tốt nhất hoặc có cách nào tốt hơn để gán động start_urls
sử dụng API phế liệu mà không phải ghi đè example_splider.py
không? Cảm ơn.
là parseItem (tự, trả lời) trả lại hàng? – friddle
'parseItem' như bất kỳ cuộc gọi lại nào khác có thể trả về một' Mục' hoặc một 'Yêu cầu' khác bằng cách gọi lại – warvariuc
cảm ơn bạn trả lời – friddle