2008-10-07 45 views
19

Khi phát triển cơ sở dữ liệu các bài viết trong Cơ sở Kiến thức (ví dụ) - cách tốt nhất để sắp xếp và hiển thị các câu trả lời phù hợp nhất cho câu hỏi của người dùng là gì?Thuật toán xếp hạng/mức độ phù hợp tìm kiếm

Bạn có sử dụng dữ liệu bổ sung chẳng hạn như trọng số từ khóa dựa trên việc người dùng trước đã tìm thấy bài viết trợ giúp hay bạn tìm thấy thuật toán đối sánh từ khóa đơn giản là đủ?

Trả lời

2

Đó là một câu hỏi khó, và các công ty như Google đang nỗ lực rất nhiều để giải quyết câu hỏi này. Hãy xem Google Enterprise Search Appliance hoặc Exalead Enterprise Search. Sau đó, theo ý kiến ​​cá nhân, tôi không nghĩ rằng bất kỳ cách tiếp cận "ngây thơ" nào sẽ cải thiện nhiều kết quả so với tìm kiếm từ khóa ngây thơ và sắp xếp theo số lượt xem trên tài liệu.

Nếu bạn có khả năng hiển thị cơ sở tri thức của mình lên web, thì chỉ cần thực hiện và để công cụ tìm kiếm yêu thích của bạn xử lý tìm kiếm cho bạn.

0

từ khóa phù hợp là không đủ khi giao dịch với câu hỏi này, bạn cần phải hiểu ý định, như Joannes nói một chủ đề rất nóng trong tìm kiếm

2

Một chút đặc hiệu hơn về vấn đề chính xác của bạn sẽ được tốt. Có rất nhiều kỹ thuật khác nhau mà bạn có thể sử dụng. Nhiều người trong số này được thúc đẩy bởi các phần dữ liệu khác. Tất nhiên bạn có thể sử dụng Lucene và xây dựng các chỉ mục của riêng bạn. Có những ràng buộc cho nhiều ngôn ngữ để làm sáng tỏ. Di chuyển lên đó cũng là dự án Solr là Lucene với rất nhiều công cụ và chức năng bổ sung xung quanh nó. Điều đó có thể phù hợp hơn với những gì bạn đang tìm kiếm.

Ý định là công cụ tìm kiếm phức tạp và hiện đại nhất dựa trên ý định thống kê để hỗ trợ sắp xếp kết quả. Bạn luôn có thể có một nút bài viết hữu ích này và lưu trữ văn bản truy vấn dẫn đến các tài liệu hữu ích. Sau đó, bạn có thể thêm một lớp thông tin vào chỉ mục để tăng các từ hoặc cụm từ cụ thể và giúp chúng trỏ đến các tài liệu nhất định.

Một số điều cần suy nghĩ về ... Có bao nhiêu tài liệu? Độ dài trung bình là bao nhiêu? Chúng có được cập nhật thường xuyên không? Người dùng làm gì với tài liệu? Sự lây lan của các từ duy nhất vào tài liệu trông như thế nào? (Đơn giản hơn là bạn có thể dễ dàng kết hợp truy vấn với một (các) tài liệu cụ thể dựa trên các tính năng độc đáo phổ biến.)

Nếu trên web, bạn luôn có thể tạo công cụ tìm kiếm tùy chỉnh google chỉ tìm kiếm trang web của bạn có thể thấy điều này là không tối ưu vì nhiều lý do.

Bạn luôn có thể bắt đầu với một chỉ mục đơn giản và dần dần làm cho nó tinh vi hơn bằng cách nói chuyện với người dùng và thu thập dữ liệu.

10

Có lẽ cách tiếp cận dễ nhất và ngây thơ nhất mà sẽ cung cấp ngay lập tức kết quả hữu ích sẽ được thực hiện *tf-idf:

Biến thể của chương trình trọng TF-IDF thường được sử dụng bởi công cụ tìm kiếm như một công cụ trung tâm trong khâu dứt điểm và xếp hạng mức độ liên quan của tài liệu với truy vấn của người dùng. tf-idf có thể được sử dụng thành công để lọc từ dừng trong các lĩnh vực chủ đề khác nhau bao gồm tóm tắt và phân loại văn bản.

Trong một câu hỏi liên quan gần đây của tôi ở đây tôi học được của một cuốn sách miễn phí tuyệt vời về chủ đề này mà bạn có thể tải về hoặc đọc trực tuyến:

An Introduction to Information Retrieval

1

Tôi nghĩ rằng góc đây không phải là bản thân truy vấn ... nó về việc ghi điểm liên quan của thông tin được truy xuất (Một cách tiếp cận phản ứng và thụ động hơn) mà sau này có thể được sử dụng để cải thiện công cụ tìm kiếm.

Tôi đoán bạn có thể thử -

  1. KNN trên tfidf để lấy thông tin

  2. tay gắn thẻ những thông tin lấy ra một relevency điểm

  3. Sau đó thoái điểm để dự đoán số điểm cho một unknwon kết quả tìm kiếm và sắp xếp nó.

Chỉ cần một ý nghĩ ...

Điểm thứ ba là thực sự dựa trên thuật toán Rocchio. Bạn có thể xem nó here

Các vấn đề liên quan