Tôi muốn sử dụng mẩu tin lưu niệm để thu thập thông tin các trang web. Có cách nào để truyền URL bắt đầu từ chính thiết bị đầu cuối không?Làm cách nào để cung cấp URL cho việc thu thập dữ liệu để thu thập dữ liệu?
Nó được đưa ra trong documentation mà một trong hai tên của nhện hoặc URL có thể được đưa ra, nhưng khi tôi đưa url nó ném một lỗi:
// tên của nhện của tôi là một ví dụ, nhưng tôi đang cho url thay vì tên spider của tôi (Nó hoạt động tốt nếu tôi cho tên nhện).
scrapy crawl example.com
LỖI:
File "/usr/local/lib/python2.7/dist-packages/Scrapy-0.14.1-py2.7.egg/scrapy/spidermanager.py", line 43, in create raise KeyError("Spider not found: %s" % spider_name) KeyError: 'Spider not found: example.com'
Làm thế nào tôi có thể làm scrapy sử dụng nhện của tôi trên url đưa ra trong nhà ga ??
Có phải example.com được thêm vào tên miền được phép của nhện của bạn không? –
yes example.com được thêm vào allow_domains. Những gì tôi thực sự muốn là cung cấp cho start_url từ dòng lệnh. tôi làm nó như thế nào? –