Tôi có một trang web nơi người dùng tải lên tài liệu ở định dạng .doc và .pdf. Tôi đang sử dụng Sphinx để tiến hành tìm kiếm toàn văn bản trên cơ sở dữ liệu SQL của tôi (MySQL). Cách tốt nhất để lập chỉ mục các định dạng tệp này với Sphinx là gì?Lập chỉ mục Tài liệu Word và PDF với Sphinx
Trả lời
Thật không may, Nhân sư không thể lập chỉ mục các loại tệp đó trực tiếp. Bạn sẽ cần phải nhập nội dung văn bản vào cơ sở dữ liệu hoặc vào an XML format that Sphinx can understand.
Phương pháp tôi sử dụng cho việc này là pdf2tiếp theo và chống từ. Tôi sử dụng cả hai thứ này để kết xuất nội dung của các tệp pdf và tài liệu từ vào cơ sở dữ liệu. Từ đó thật dễ dàng để thu thập thông tin với Nhân sư.
Im sử dụng cùng một phương pháp như bạn và phương pháp làm việc cho tôi. – Johny
Có ai đã sử dụng Tika để lập chỉ mục các loại tài liệu khác, giống như plugin SOLR không? Apache Tika
Một số liên kết:
- 1. Cách lập chỉ mục các tài liệu Word 2003, 2007 và 2010 bằng Lucene.NET
- 2. Tệp tài liệu MS Word tạo chỉ mục
- 3. Cách tạo tài liệu PDF bằng Sphinx trong Windows
- 4. Chuyển đổi tài liệu MS Word sang PDF trong ASP.NET
- 5. lập trình thêm footer vào Office Word/Excel tài liệu
- 6. Tôi có thể đọc PDF hoặc Tài liệu Word với Node.js không?
- 7. Tài liệu API công cộng Sphinx
- 8. Bao gồm docstring trong Tài liệu Sphinx
- 9. Lưu trữ tài liệu tư nhân Sphinx
- 10. Làm cách nào để lập chỉ mục các tài liệu trong SOLR?
- 11. Chỉ mục các tài liệu pdf trong Solr từ C# client
- 12. Cách tốt nhất để đưa tệp PDF vào tài liệu Sphinx của tôi là gì?
- 13. Đặc tính mô-đun tài liệu Sphinx
- 14. tài liệu Sphinx và autodoc-skip thành viên
- 15. Ngăn các trường tài liệu Word cập nhật khi mở
- 16. Chuyển đổi tài liệu Word sang PDF bằng cách sử dụng Java
- 17. Hiển thị tài liệu Microsoft Word trên trang web
- 18. Tạo tài liệu Word bằng JavaScript với Docx.js?
- 19. Cách hiệu quả nhất để lập chỉ mục các từ trong tài liệu?
- 20. Delphi chuyển đổi tài liệu sang pdf bằng cách sử dụng Word ActiveX
- 21. Tài liệu HTML sang PDF?
- 22. Mở Tài liệu Word từ IE
- 23. tạo javadoc làm tài liệu word
- 24. Tìm kiếm SharePoint không lập chỉ mục nội dung của thư viện tài liệu
- 25. Trong trình tạo tài liệu Sphinx, tôi có thể thêm toàn bộ gói (đệ quy) vào Chỉ mục không?
- 26. Làm cách nào để tạo tài liệu cho trình thiết lập thuộc tính Python bằng Sphinx?
- 27. Cách sử dụng Python để lập trình tạo một phần tài liệu Sphinx
- 28. Làm cách nào để lập chỉ mục các tệp .doc và .pdf trong asp.net
- 29. mở tài liệu PDF từ bộ nhớ
- 30. Xem tài liệu về cấu trúc lại (Sphinx) trong iPython?
Bạn có đề nghị một phương pháp hơn người khác? –
Phụ thuộc vào ngôn ngữ phía máy chủ bạn đang sử dụng. Nếu đó là Ruby/Rails, tôi biết tất cả các thư viện không hỗ trợ XML ra khỏi hộp, trừ khi bạn đang xây dựng một hệ thống từ đầu (thay vì sử dụng ActiveRecord). Vì vậy, tôi muốn sử dụng cơ sở dữ liệu. Nếu không, nó hoàn toàn tùy thuộc vào bạn. Nếu bạn không sử dụng Ruby, hãy xem những thư viện nào có sẵn cho ngôn ngữ bạn chọn, xem những gì họ có thể/không thể làm được. – pat