Trình thu thập thông tin (spider) tốt là gì để sử dụng đối với các tài liệu HTML và XML (cục bộ hoặc dựa trên web) và hoạt động tốt trong không gian giải pháp Lucene/Solr? Có thể dựa trên Java nhưng không nhất thiết phải như vậy.Khuyến nghị cho một công cụ hỗ trợ để sử dụng với Lucene hoặc Solr?
Trả lời
Theo tôi, đây là một lỗ khá đáng kể giữ sự chấp nhận rộng rãi của Solr. DataImportHandler mới là bước đầu tiên tốt để nhập dữ liệu có cấu trúc, nhưng không có đường dẫn nhập tài liệu tốt cho Solr. Nutch không hoạt động, nhưng sự tích hợp giữa trình thu thập Nutch và Solr hơi vụng về.
Tôi đã thử mọi trình thu thập thông tin nguồn mở mà tôi có thể tìm thấy và không có trình thu thập dữ liệu nào tích hợp với Solr.
Theo dõi OpenPipeline và Apache Tika.
tôi đề nghị bạn kiểm tra Nutch để có được một số cảm hứng:
Nutch là mã nguồn mở phần mềm web tìm kiếm. Nó xây dựng trên Lucene Java, thêm các chi tiết cụ thể cho web, chẳng hạn như trình thu thập thông tin, cơ sở dữ liệu biểu đồ liên kết, trình phân tích cú pháp cho HTML và các định dạng tài liệu khác, v.v.
Ngoài ra hãy kiểm tra Apache Droids [http://incubator.apache.org/droids/] - hy vọng này không phải là một khung trình thu thập thông tin/trình thu thập dữ liệu/trình thu thập thông tin/trình duyệt đơn giản.
Nó là mới và chưa dễ sử dụng ngoài giá (nó sẽ mất một số tweeking để có được chạy), nhưng là một điều tốt để giữ cho mắt của bạn trên.
Nutch có thể là trận đấu gần nhất của bạn nhưng không quá linh hoạt.
Nếu bạn cần thêm thứ gì đó, bạn sẽ phải hack khá nhiều trình thu thập của riêng bạn. Nó không tệ như âm thanh, mọi ngôn ngữ đều có thư viện web, vì vậy bạn chỉ cần kết nối một số trình quản lý hàng đợi nhiệm vụ với trình tải xuống HTTP và trình phân tích cú pháp HTML, nó không thực sự có nhiều công việc. Bạn hầu như có thể thoát khỏi một hộp duy nhất, vì thu thập thông tin chủ yếu là băng thông, không phải là CPU chuyên sâu.
Tôi đã thử nutch, nhưng rất khó để tích hợp với Solr. Tôi sẽ xem Heritrix. Nó có một hệ thống plugin mở rộng để làm cho nó dễ dàng tích hợp với Solr, và nó nhanh hơn nhiều khi thu thập dữ liệu. Nó sử dụng rộng rãi các chủ đề để tăng tốc quá trình.
Có ai đã thử Xapian không? Nó seams nhanh hơn nhiều so với solr và được viết bằng C++.
C#, nhưng sản xuất Lucene (Java và C#) tập tin chỉ mục tiêu hao.
- 1. Bạn sử dụng công cụ nào để hỗ trợ XCode?
- 2. Khuyến nghị cho Java + OpenPGP?
- 3. Khuyến nghị cho C Profilers?
- 4. Cách được khuyến nghị để hỗ trợ khả năng tương thích ngược/chuyển tiếp trong ứng dụng iPhone?
- 5. VS2010 hoặc .NET 4.0 có hỗ trợ công cụ mới cho Trợ năng không?
- 6. Sử dụng cổng Solr và Zends Lucene cùng
- 7. Hỗ trợ cho cloud9 ide và matplotlib hoặc công cụ đồ họa khác cho python?
- 8. Solr/Lucene ghi bàn
- 9. Làm thế nào để thiết lập Lucene/Solr cho một ứng dụng web B2B?
- 10. Khuyến nghị mới nhất cho Comet bằng Python?
- 11. Công cụ lưu trữ cho bảng không hỗ trợ sửa chữa. InnoDB hoặc MyISAM?
- 12. Khung ứng dụng web nào cho Delphi được khuyến nghị?
- 13. Cách được khuyến nghị để hỗ trợ nhiều ngôn ngữ trong chương trình C# của tôi là gì?
- 14. Cách được khuyến nghị để có được winhttp.h là gì?
- 15. Có công cụ hỗ trợ toán học rời rạc không?
- 16. Khuyến nghị sử dụng chú thích @Required của Spring
- 17. Điểm số solr/lucene idf
- 18. Cách được khuyến nghị để móc Win32 API cho một ứng dụng thương mại là gì?
- 19. Công cụ tìm kiếm kho lưu trữ Maven được khuyến nghị?
- 20. COM + vẫn được khuyến nghị?
- 21. Symfony2 và Vim khuyến nghị
- 22. Công cụ SQLite có hỗ trợ khóa ngoài?
- 23. bài được khuyến nghị/giấy tờ về nghề lập trình
- 24. Ứng dụng email được khuyến nghị để đọc/áp dụng các bản vá git?
- 25. Trải nghiệm và khuyến nghị của Icenium
- 26. Cách được khuyến nghị để triển khai Yesod là gì?
- 27. Các khung giao diện người dùng nào được khuyến nghị sử dụng với Backbone.js?
- 28. Làm cách nào để xóa hỗ trợ cho các công cụ xem mà tôi không sử dụng?
- 29. Đề nghị một công cụ wiki PHP tốt
- 30. Có cách nào được khuyến nghị sử dụng mẫu Observer trong MVP bằng GWT không?