2009-07-30 43 views
10

Tôi có một trang web nơi người dùng tải lên tài liệu ở định dạng .doc và .pdf. Tôi đang sử dụng Sphinx để tiến hành tìm kiếm toàn văn bản trên cơ sở dữ liệu SQL của tôi (MySQL). Cách tốt nhất để lập chỉ mục các định dạng tệp này với Sphinx là gì?Lập chỉ mục Tài liệu Word và PDF với Sphinx

Trả lời

6

Thật không may, Nhân sư không thể lập chỉ mục các loại tệp đó trực tiếp. Bạn sẽ cần phải nhập nội dung văn bản vào cơ sở dữ liệu hoặc vào an XML format that Sphinx can understand.

+0

Bạn có đề nghị một phương pháp hơn người khác? –

+0

Phụ thuộc vào ngôn ngữ phía máy chủ bạn đang sử dụng. Nếu đó là Ruby/Rails, tôi biết tất cả các thư viện không hỗ trợ XML ra khỏi hộp, trừ khi bạn đang xây dựng một hệ thống từ đầu (thay vì sử dụng ActiveRecord). Vì vậy, tôi muốn sử dụng cơ sở dữ liệu. Nếu không, nó hoàn toàn tùy thuộc vào bạn. Nếu bạn không sử dụng Ruby, hãy xem những thư viện nào có sẵn cho ngôn ngữ bạn chọn, xem những gì họ có thể/không thể làm được. – pat

9

Phương pháp tôi sử dụng cho việc này là pdf2tiếp theo và chống từ. Tôi sử dụng cả hai thứ này để kết xuất nội dung của các tệp pdf và tài liệu từ vào cơ sở dữ liệu. Từ đó thật dễ dàng để thu thập thông tin với Nhân sư.

+0

Im sử dụng cùng một phương pháp như bạn và phương pháp làm việc cho tôi. – Johny

Các vấn đề liên quan