2010-10-25 37 views
5

Tôi đang viết một chỉ mục Lucene.NET tùy chỉnh để cho phép lập chỉ mục các tài liệu MS Word. Trình chỉ mục phải có khả năng xử lý ba bản phát hành cuối cùng của MS Word: 2010, 2007 và 2003.Cách lập chỉ mục các tài liệu Word 2003, 2007 và 2010 bằng Lucene.NET

Kế hoạch là sử dụng các hội đồng interop VSTO được cài đặt như một phần của VS2010 để trích xuất nội dung văn bản từ tài liệu.

Có cách nào tốt hơn để triển khai lập chỉ mục tài liệu Word không? Điều này có nghĩa là tôi sẽ phải cài đặt cả ba phiên bản Word trên máy chủ? Hay chỉ là Word 2010?

Tools/Môi trường:

  • Lucene.NET 2.3.1.3
  • VS2010/NET 3.5
  • Windows 2008/IIS 7

Lưu ý: Để biết chi tiết về cách để thực hiện việc này, hãy xem Sitecore text search in PDF or Word documents

Trả lời

5

Bạn có thể sử dụng các plugin IFilter cho phép bạn truy xuất nội dung của các tài liệu và sau đó lập chỉ mục chúng. Giao diện ban đầu là một phần của Dịch vụ Chỉ mục của Microsoft nhưng thường có sẵn để lập chỉ mục các tài liệu.

Tôi đã xem xét công nghệ cách đây vài năm và có vẻ nhớ rằng bộ lọc cho tài liệu Office được tích hợp vào Windows hoặc có thể được cài đặt riêng biệt với gói Office hoàn chỉnh nhưng tôi có thể sai ở đây.

Tìm hiểu thêm về công nghệ IFilter tại IFilter at WikipediaIFilter at MSDN. Bạn sẽ phải nhìn vào P/Invoke và có thể nhận được một số cảm hứng IFilter at pinvoke.net.

Mẫu trong C# có thể được tìm thấy tại MSDN Code Gallery.

Các vấn đề liên quan