2016-05-09 16 views
5

Làm cách nào để tính toán tf-idf cho truy vấn? Tôi hiểu làm thế nào để tính toán TF-IDF cho một tập hợp các tài liệu với định nghĩa sau đây:Làm cách nào để tính toán TF-IDF của truy vấn?

tf = lần xuất hiện trong tài liệu/tổng số từ trong tài liệu

idf = log (#documents/#documents nơi hạn xảy ra

Nhưng tôi không hiểu làm thế nào mà tương quan với các truy vấn.

Ví dụ, tôi đọc a resource rằng tuyên bố các giá trị của một truy vấn "life learning"

cuộc sống | tf = .5 | idf = 1.405507153 | tf_idf = 0.702753576
học | tf = .5 | idf = 1.405507153 | tf_idf = 0,702753576

Các tf giá trị Tôi hiểu, mỗi học kỳ chỉ xuất hiện một lần ra khỏi hai nhiệm kỳ có thể, do đó 1/2, Nhưng tôi không có ý tưởng nơi idf đến từ đâu.
Tôi nghĩ rằng #documents = 1 và lần xuất hiện = 1, nhật ký (1) = 0, vì vậy idf sẽ là 0, nhưng điều này dường như không đúng. Nó có dựa trên bất kỳ tài liệu nào bạn đang sử dụng không? Làm thế nào để bạn tính toán tf-idf cho một truy vấn?

Trả lời

2

Chỉ tf (cuộc sống) phụ thuộc vào chính truy vấn đó. Tuy nhiên, idf của truy vấn phụ thuộc vào tài liệu nền, vì vậy idf (cuộc sống) = 1+ ln (3/2) ~ = 1.405507153. Đó là lý do tại sao tf-idf được định nghĩa là nhân một thành phần cục bộ (tần suất cụm từ) với một thành phần toàn cục (tần số tài liệu nghịch đảo).

0

Giả truy vấn của bạn là tốt nhất bảo hiểm xe hơi, tổng vốn từ vựng của bạn có chứa xe, tốt nhất, ô tô, bảo hiểm và bạn có N=1,000,000 tài liệu. Vì vậy, câu hỏi của bạn là một cái gì đó như dưới đây:

enter image description here

Và một trong những tài liệu của bạn có thể là:

enter image description here

Bây giờ tính toán cosin tương giữa TF-IDF của Query của bạn và Document.

Các vấn đề liên quan