Tôi so sánh bốn Nutch/Heritrix/OpenPipeLine/Apache Tika Giá trị nào tốt nhất? Thành tích và điểm số của mỗi thành phần là gì? Tôi muốn có một số trình thu thập thông tin có thể mở rộng có thể thu thập thông tin danh sách các trang web và có thể được sửa đổi nếu cần.Trình thu thập thông tin nguồn mở nào là tốt nhất?
Trả lời
Tôi chưa nghiên cứu các trình thu thập dữ liệu mà bạn đề cập nhưng tôi biết rằng trình thu thập dữ liệu tôi đã viết có thể mở rộng và có thể được sửa đổi. Nó cũng có thể được sử dụng với AJAX và các trang web "chỉ javascript" (tức là các trang web sử dụng Bộ công cụ web của Google).
Tên là forklabs-javaxpcom và có thể được tìm thấy tại http://code.google.com/p/forklabs-javaxpcom/.
Nutch là hầu hết tất cả trong số chúng, có thể định cấu hình cực kỳ. Đã thử với các tài liệu 100m. Đáng tin cậy.
Heritrix cũng hoạt động tốt, nhưng không tốt hơn Nutch.
Bạn có thể cung cấp cho Crawler4j thử nếu bạn cần thu thập thông tin nhanh.
Để thực hiện thu thập thông tin và sử dụng giới thiệu và định cấu hình trình thu thập thông tin dễ dàng bằng giao diện người dùng đơn giản, bạn có thể thử websphinx.
Tika không phải là một trình thu thập: it's a toolkit detects and extracts metadata and structured text content
tôi đã có một công việc đòi hỏi bò, nhưng OpenPipeLine đã không có trong danh sách các trình thu thập thông yêu thích. Nó có một giao diện người dùng, lập lịch công việc; nó được sử dụng cho các giải pháp doanh nghiệp. Khi bạn chỉ muốn thu thập thông tin một số trang web, bạn sẽ không cần những thứ như vậy.
- 1. Công cụ trình thu thập thông tin web nguồn mở tốt nhất được viết bằng Java là gì?
- 2. Công cụ Trình thu thập thông tin web tốt là gì?
- 3. Phát triển trình thu thập thông tin và trình thu thập thông tin cho công cụ tìm kiếm dọc
- 4. Thu thập thông tin Internet
- 5. Việc thu thập utf8 nào là tốt nhất?
- 6. Trình thu thập thông tin web trong ruby
- 7. Thu thập thông tin hệ thống và môi trường
- 8. Thư viện trình thu thập thông tin web Java
- 9. Trình thu thập thông tin web - Bỏ qua tệp Robots.txt?
- 10. Asp.net Request.Browser.Crawler - Danh sách trình thu thập thông tin động?
- 11. Trình thông dịch mã nguồn mở "tốt nhất" lolcode là gì?
- 12. Làm thế nào để mở rộng Nutch cho bài viết thu thập thông tin
- 13. Thu thập thông tin không chính xác CrawlSpider không thu thập thông tin trang đích đầu tiên
- 14. Bất kỳ ai cũng biết một trình thu thập dữ liệu web nguồn mở có thể mở rộng tốt?
- 15. Nền tảng wiki nguồn mở tốt nhất là gì?
- 16. Thu thập thông tin về lập lịch trình chuỗi trên Linux
- 17. Cách thu thập thông tin tương tự như panopticlick.eff.org
- 18. Thu thập thông thường bao gồm trong một tệp duy nhất - thực hành tốt?
- 19. Làm cách nào để thiết kế bot thu thập thông tin?
- 20. Cách tạo start_urls động trong thu thập thông tin?
- 21. Tăng thu thập thông tin/lập chỉ mục của Google?
- 22. Máy chủ ứng dụng nguồn mở tốt nhất là gì?
- 23. Cách tốt nhất để liên tục xuất thông tin từ trình thu thập dữ liệu Scrapy vào cơ sở dữ liệu ứng dụng Django là gì?
- 24. Thu thập thông tin cửa hàng Google Play
- 25. C# trình duyệt không đầu có hỗ trợ javascript cho trình thu thập thông tin
- 26. Giải pháp WURFL nguồn mở tốt nhất
- 27. Tiếp tục lại trình thu thập thông tin sau khi chạm/vuốt
- 28. Trình phát FLV nguồn mở miễn phí tốt nhất (nhúng) là gì?
- 29. Tại sao ví dụ về trình thu thập thông tin đưa ra lỗi?
- 30. Lỗi khi cố gắng chọn biểu mẫu từ trình thu thập thông tin symfony2?