Tôi đang cạo một trang web có Scrapy và muốn chia kết quả thành hai phần. Thông thường tôi gọi Scrapy như thế này:Viết cho nhiều tệp bằng Scrapy
$ scrapy crawl articles -o articles.json
$ scrapy crawl authors -o authors.json
Hai con nhện hoàn toàn độc lập và không giao tiếp chút nào. Thiết lập này hoạt động cho các trang web nhỏ hơn, nhưng các trang web lớn hơn chỉ có quá nhiều tác giả để tôi thu thập thông tin như thế này.
Làm cách nào để có một con nhện articles
cho biết các trang cần thu thập thông tin và duy trì cấu trúc hai tệp này? Lý tưởng nhất là, tôi không muốn viết URL của tác giả vào một tệp và sau đó đọc lại với con nhện khác.
Tôi nghĩ rằng vấn đề sẽ là kích thước của các tệp. Giải pháp này sẽ không mở rộng rất tốt (như tôi chắc chắn bạn đã nhận thấy). có bạn mặc dù về một cơ sở dữ liệu hoặc kho cho điều này? Một số giải pháp lược đồ-ít hơn sẽ đến với tâm trí của tôi cho việc này. Tôi không nghĩ bạn sẽ hài lòng với chỉ 2 tệp lớn. – DrColossos