2011-12-05 28 views
5

Tôi đang làm việc với SOLR trên một dự án mà chúng tôi nhập một loạt các tài liệu phong phú (~ 40k), chủ yếu là MS Word, Powerpoint, Excel và PDF.Có schema.xml thực hành tốt nhất cho SOLR khi nhập tài liệu phong phú không?

Có thực hành tốt nhất schema.xml và/hoặc solrconfig.xml để sử dụng trong SOLR khi sử dụng ExtractingRequestHandler?

Tôi đã thực hiện các chỉnh sửa đối với lược đồ mặc định để cố gắng nhận các khía cạnh làm việc vào ngày sửa đổi ngày, nhưng thậm chí không có điều đó, tôi thấy có thể tồn tại một ví dụ tốt về cách các tệp này từ Tika là đủ.

Nếu không có điều gì như là thực hành tốt nhất schema.xml và/hoặc solrconfig.xml Tôi cũng quan tâm đến các ví dụ hay, tốt nhất là từ các dự án nguồn mở hiện tại hoặc thậm chí là các bài đăng trên blog tốt.

Mọi con trỏ đều được chào đón!

Trả lời

0

Trong sách Taming Text (http://www.manning.com/ingersoll/) bạn có một số tham chiếu đến ExtractingRequestHandler. Cuốn sách này là về xử lý văn bản bằng cách sử dụng các công cụ nguồn mở như solr, tika hoặc lucene. Tôi đã đọc cho đến chương 5 và cho đến bây giờ cuốn sách giải thích cách mở rộng chức năng solr bằng cách sửa đổi tệp schema.xml để tạo các loại trường khác nhau và xử lý truy vấn hoặc lập chỉ mục.

+0

Ok, nếu bạn tìm thấy điều gì đó liên quan đến các phương pháp hay nhất, hãy đảm bảo cập nhật câu trả lời của bạn. Cảm ơn –

Các vấn đề liên quan