2010-05-26 30 views

Trả lời

2

Để nhận văn bản vào Solr, bạn cần có khả năng trích xuất văn bản đó. Khung kết nối Lucene có nghĩa là để làm điều đó. Nếu bạn bằng cách nào đó lấy văn bản thô theo cách khác, bạn có thể sử dụng DataImportHandler để nhập thông tin. Nếu bạn lập chỉ mục văn bản chính xác và định cấu hình lược đồ tốt, bạn sẽ có thể nhận được kết quả tìm kiếm thành công.

+0

Bộ lọc Apache Tika phù hợp ở đâu? –

+0

Tôi không chắc chắn rằng nó không. Nhìn vào các định dạng tài liệu được hỗ trợ của Tika: http://tika.apache.org/formats.html, nó hỗ trợ một số định dạng tài liệu của Microsoft. Tôi không biết cái nào trong số này có liên quan đến Sharepoint. Lý tưởng nhất, Tika cho phép bạn trích xuất văn bản và siêu dữ liệu ra khỏi một tệp ở định dạng được hỗ trợ, do đó bạn có thể tự điều chỉnh việc xử lý kho lưu trữ (hệ thống tệp, thư mục, thu thập thông tin). Nhưng tại sao không sử dụng LCF? –

+0

Có, tôi đã tiếp tục sử dụng LCF, LCF có chăm sóc tìm kiếm toàn văn không? –

Các vấn đề liên quan