Tôi đang cố gắng lưu đầu ra của lệnh thu thập dữ liệu thô tôi đã thử scrapy crawl someSpider -o some.json -t json >> some.text
Nhưng nó không hoạt động ... có thể một số cơ thể cho tôi biết cách tôi có thể lưu đầu ra thành văn bản tập tin .... Tôi có nghĩa là các bản ghi và thông tin được in bằng scrapy ...Làm thế nào để tiết kiệm thu thập dữ liệu Scrapy Đầu ra lệnh
6
A
Trả lời
9
Bạn cũng cần chuyển hướng stderr. Bạn đang chuyển hướng chỉ stdout. Bạn có thể chuyển hướng nó bằng cách nào đó như thế này:
scrapy crawl someSpider -o some.json -t json 2> some.text
Điều quan trọng là số 2, "chọn" stderr làm nguồn cho chuyển hướng.
Nếu bạn muốn chuyển hướng cả stderr và stdout vào một tập tin, bạn có thể sử dụng:
scrapy crawl someSpider -o some.json -t json &> some.text
Để biết thêm về chuyển hướng đầu ra: http://tldp.org/HOWTO/Bash-Prog-Intro-HOWTO-3.html
9
Bạn có thể thêm những dòng này để bạn settings.py
:
LOG_STDOUT = True
LOG_FILE = '/tmp/scrapy_output.txt'
Và sau đó bắt đầu thu thập dữ liệu của bạn bình thường:
scrapy crawl someSpider
0
nếu bạn muốn lấy kết quả từ lệnh trình điều khiển mạng.
scrapy runspider scraper.py -o some.json -t json 2> some.text
Điều này cũng hoạt động.
Các vấn đề liên quan
- 1. Làm cách nào để cung cấp URL cho việc thu thập dữ liệu để thu thập dữ liệu?
- 2. lệnh không xác định: lỗi thu thập dữ liệu
- 3. Thu thập đầu ra của lệnh ngoài bằng OCaml
- 4. Chạy cục bộ tất cả các trình thu thập dữ liệu trong Scrapy
- 5. Sử dụng nhiều trình thu thập dữ liệu tại dự án trong Scrapy
- 6. Tôi làm cách nào để sử dụng Scrapy để thu thập thông tin trong các trang?
- 7. Cách gọi các trình thu thập dữ liệu cụ thể từ một tập lệnh Python khác
- 8. Android Viewpager tiết kiệm dữ liệu và xem
- 9. tiết kiệm một mảng NumPy với dữ liệu hỗn hợp
- 10. Thu thập dữ liệu nhiều trang web bằng Python Scrapy với độ sâu giới hạn trên mỗi trang web
- 11. Làm cho trình thu thập dữ liệu web/spider
- 12. Ember.js hiệp hội dữ liệu không tiết kiệm
- 13. Sử dụng thu thập thông tin thu thập dữ liệu để làm việc với phiên người dùng đã được xác thực (đã đăng nhập)
- 14. django - thu thập dữ liệu từ HTML <select>
- 15. Làm thế nào để hiển thị đầu ra của dữ liệu float với 2 chữ số thập phân trong Java?
- 16. Làm thế nào để tiết kiệm tạo PDF với ReportLab để Datastore trong App Engine Python
- 17. cách trình thu thập dữ liệu web xử lý javascript
- 18. Cách tốt nhất để liên tục xuất thông tin từ trình thu thập dữ liệu Scrapy vào cơ sở dữ liệu ứng dụng Django là gì?
- 19. Làm cách nào để tôi có thể yêu cầu Scrapy chỉ thu thập dữ liệu các liên kết bên trong một Xpath?
- 20. làm thế nào để tiết kiệm lĩnh vực cụ thể trong CakePHP
- 21. Danh sách thu thập dữ liệu với jQuery
- 22. Tôi làm cách nào để xử lý Javascript trong trình thu thập dữ liệu web Perl?
- 23. Làm cách nào để thu thập dữ liệu từ trang web sử dụng AJAX, với Perl?
- 24. Có cách nào tốt hơn để thu thập dữ liệu twitter không?
- 25. Tiết kiệm toàn bộ Bundle để SharedPreferences
- 26. Làm thế nào để tiết kiệm ngày và thời gian khi một đối tượng cốt lõi Dữ liệu được tạo ra
- 27. Lcov: không thể thu thập số liệu thống kê chi tiết về chi nhánh
- 28. Tiết kiệm CGContextRef
- 29. Django thác tiết kiệm?
- 30. Làm cách nào để thu thập toàn bộ Wikipedia?
Kiểm tra [link] (http://doc.scrapy.org/en/latest/topics/logging.html#logging-settings) để biết thêm cài đặt ghi nhật ký. Bạn thậm chí có thể sử dụng 'crawly crawl MyCrawler -s LOG_FILE =/var/log/crawler_mycrawler.log' -s kích hoạt để thay đổi cài đặt trình thu thập thông tin khi đang di chuyển. – pista329