Làm cách nào để tính toán tf-idf
cho truy vấn? Tôi hiểu làm thế nào để tính toán TF-IDF cho một tập hợp các tài liệu với định nghĩa sau đây:Làm cách nào để tính toán TF-IDF của truy vấn?
tf = lần xuất hiện trong tài liệu/tổng số từ trong tài liệu
idf = log (#documents/#documents nơi hạn xảy ra
Nhưng tôi không hiểu làm thế nào mà tương quan với các truy vấn.
Ví dụ, tôi đọc a resource rằng tuyên bố các giá trị của một truy vấn "life learning
"
cuộc sống | tf = .5 | idf = 1.405507153 | tf_idf = 0.702753576
học | tf = .5 | idf = 1.405507153 | tf_idf = 0,702753576
Các tf
giá trị Tôi hiểu, mỗi học kỳ chỉ xuất hiện một lần ra khỏi hai nhiệm kỳ có thể, do đó 1/2, Nhưng tôi không có ý tưởng nơi idf
đến từ đâu.
Tôi nghĩ rằng #documents = 1 và lần xuất hiện = 1, nhật ký (1) = 0, vì vậy idf
sẽ là 0, nhưng điều này dường như không đúng. Nó có dựa trên bất kỳ tài liệu nào bạn đang sử dụng không? Làm thế nào để bạn tính toán tf-idf cho một truy vấn?