Tôi cần so sánh mức độ liên quan của kết quả tìm kiếm giữa các truy vấn Lucene khác nhau.Lucene: so sánh kết quả giữa các truy vấn
Thực ra tôi có một bộ tài liệu văn bản được lập chỉ mục và khi tìm kiếm được thực hiện trên bộ này, tôi muốn trả lại không phải N kết quả tốt nhất từ tập này nhưng tất cả kết quả phù hợp với truy vấn "đủ tốt".
Thông số "đủ tốt" này sẽ được định cấu hình (nói giữa 0 (tài liệu hoàn toàn không liên quan) và 1 (tài liệu phù hợp nhất có thể)) nhưng tôi muốn nó ảnh hưởng đến tất cả truy vấn theo cùng một cách.
Từ những gì tôi đã tìm thấy trên internet, nó không phải là một nhiệm vụ đơn giản. Ai có thể cho tôi một gợi ý về cách tiếp cận vấn đề này?
Cảm ơn rất nhiều!
Bạn không chắc chắn ý của mình là gì? Bạn có muốn loại bỏ kết quả truy vấn không? Thật dễ dàng để làm điều đó với Solr. Với Lucene bạn cần phải viết một bộ sưu tập tùy chỉnh: xem tại đây http://stackoverflow.com/questions/2871558/remove-results-below-a-certain-score-threshold-in-solr-lucene – Mikos
Cảm ơn Mikos, nhưng vì nó được viết trong nhận xét của Shashikant Kore ở đó, điểm số liên quan đến các truy vấn và do đó tôi không thể sử dụng cùng một ngưỡng để đo lường "sự tốt lành" của các kết quả trên nhiều truy vấn. Tôi đang xem xét cách bình thường hóa các điểm số bằng cách nào đó để các giá trị chuẩn hóa này có nghĩa là giống nhau về mặt "tốt lành" cho tất cả các truy vấn. – Serpenty
ahh! Tôi nghĩ rằng tôi hiểu rõ hơn về câu hỏi của bạn, nhưng cảm thấy điều đó phù hợp hơn với số liệu thống kê so với Lucene. Bạn có thể muốn tra cứu ANOVA hoặc Chi bình phương trong các số liệu thống kê trong khi có thể giúp bạn xác định mức độ phù hợp giữa các truy vấn bằng cách sử dụng mảng kết quả điểm tài liệu. HTH. – Mikos