2010-05-10 26 views
6

Im chạy Solr 1.4 trên Ubuntu 10.04 (được cài đặt qua apt-get solr-tomcat) và có vẻ như hoạt động tốt. Tôi gặp khó khăn trong việc tìm kiếm bất kỳ thông tin mạch lạc nào về cách lập chỉ mục tài liệu. Im mới để SOLR nên chịu với tôi! Tôi có một thư mục (/ mnt/thư mục) mà là một cửa sổ gắn kết chia sẻ, trong đó có các tập tin Word và PDF mà tôi muốn lập chỉ mục, cách dễ nhất để có được SOLR để chỉ mục toàn bộ thư mục là gì?Làm cách nào để lập chỉ mục các tài liệu trong SOLR?

Tài liệu cho SOLR khá kém, không thể tìm thấy bất kỳ hướng dẫn nào về việc thực hiện mọi thứ với nó để mọi trợ giúp được đánh giá cao!

S

Trả lời

7

Hãy nhìn vào các Solr wiki, đó là một tài liệu hướng dẫn khá kỹ lưỡng.

Cụ thể, xem ExtractingRequestHandler, cho phép bạn lập chỉ mục các tệp nhị phân như tài liệu Word và PDF. Here's an introduction đến chủ đề.

Nếu wiki không đủ cho bạn, cũng có great book about Solr.

+1

Liên kết Lucid không hoạt động. Tuy nhiên, video được tìm thấy trên youtube. http://www.youtube.com/watch?v=ifgFjAeTOws&list=PLsj1Ri57ZE94lISrJuy7W8COc2RNFC1Fl&index=14 – Avec

+0

Chỉ liên kết tới sách hoạt động – orezvani

1

tôi đã tìm thấy những thách thức cùng với các tài liệu cốt lõi, nhưng tôi đã xem qua hướng dẫn tham khảo rất hữu ích này từ LucidImagination, giúp làm sáng tỏ nhiều điều về Solr:

http://docs.lucidworks.com/display/solr/Apache+Solr+Reference+Guide

+0

Đáng buồn là liên kết đó không còn hoạt động nữa. –

+0

Tôi nghĩ rằng điều này sẽ thay thế ở trên: http://docs.lucidworks.com/display/solr/Apache+Solr+Reference+Guide – paranza

0

Chế biến các văn bản giàu với Solr: http://wiki.apache.org/solr/UpdateRichDocuments

+2

Oh, vừa được công nhận, rằng phương pháp này đã được thay thế bởi ExtractingRequestHandler, như Mauricio gợi ý. (Trích từ wiki solr: _Trang này bao gồm RichDocumentHandler như được tạo bởi Eric Pugh và Chris Harris. Tích hợp Tika của Solr, sẽ thay thế RichDocumentHandler được mô tả tại ExtractingRequestHandler. Trang này đang được bảo tồn ở đây cho những người dùng hiện đang sử dụng RichDocumentHandler_) – High6

Các vấn đề liên quan