2008-11-12 24 views

Trả lời

11

Theo tôi, đây là một lỗ khá đáng kể giữ sự chấp nhận rộng rãi của Solr. DataImportHandler mới là bước đầu tiên tốt để nhập dữ liệu có cấu trúc, nhưng không có đường dẫn nhập tài liệu tốt cho Solr. Nutch không hoạt động, nhưng sự tích hợp giữa trình thu thập Nutch và Solr hơi vụng về.
Tôi đã thử mọi trình thu thập thông tin nguồn mở mà tôi có thể tìm thấy và không có trình thu thập dữ liệu nào tích hợp với Solr.
Theo dõi OpenPipeline và Apache Tika.

4

tôi đề nghị bạn kiểm tra Nutch để có được một số cảm hứng:

Nutch là mã nguồn mở phần mềm web tìm kiếm. Nó xây dựng trên Lucene Java, thêm các chi tiết cụ thể cho web, chẳng hạn như trình thu thập thông tin, cơ sở dữ liệu biểu đồ liên kết, trình phân tích cú pháp cho HTML và các định dạng tài liệu khác, v.v.

4

Ngoài ra hãy kiểm tra Apache Droids [http://incubator.apache.org/droids/] - hy vọng này không phải là một khung trình thu thập thông tin/trình thu thập dữ liệu/trình thu thập thông tin/trình duyệt đơn giản.

Nó là mới và chưa dễ sử dụng ngoài giá (nó sẽ mất một số tweeking để có được chạy), nhưng là một điều tốt để giữ cho mắt của bạn trên.

2

Nutch có thể là trận đấu gần nhất của bạn nhưng không quá linh hoạt.

Nếu bạn cần thêm thứ gì đó, bạn sẽ phải hack khá nhiều trình thu thập của riêng bạn. Nó không tệ như âm thanh, mọi ngôn ngữ đều có thư viện web, vì vậy bạn chỉ cần kết nối một số trình quản lý hàng đợi nhiệm vụ với trình tải xuống HTTP và trình phân tích cú pháp HTML, nó không thực sự có nhiều công việc. Bạn hầu như có thể thoát khỏi một hộp duy nhất, vì thu thập thông tin chủ yếu là băng thông, không phải là CPU chuyên sâu.

6

Tôi đã thử nutch, nhưng rất khó để tích hợp với Solr. Tôi sẽ xem Heritrix. Nó có một hệ thống plugin mở rộng để làm cho nó dễ dàng tích hợp với Solr, và nó nhanh hơn nhiều khi thu thập dữ liệu. Nó sử dụng rộng rãi các chủ đề để tăng tốc quá trình.

0

Có ai đã thử Xapian không? Nó seams nhanh hơn nhiều so với solr và được viết bằng C++.

Các vấn đề liên quan