2014-11-21 13 views
11

Công thức cho IDF là nhật ký (N/df t) thay vì chỉ là N/df t.Tại sao nhật ký được sử dụng khi tính toán trọng số tần số hạn và IDF, tần suất tài liệu nghịch đảo?

Trong đó N = tổng tài liệu trong bộ sưu tập và df t = tần suất tài liệu của thuật ngữ t.

Nhật ký được cho là được sử dụng vì nó "làm giảm" ảnh hưởng của IDF. Điều đó có nghĩa là gì?

Ngoài ra, tại sao chúng ta sử dụng tần số log nặng cho tần số hạn như đã thấy ở đây:

enter image description here

Trả lời

13

Nó không nhất thiết phải là trường hợp đó nhiều hơn sự xuất hiện của một thuật ngữ trong một tài liệu nhiều hơn là sự liên quan. .. sự đóng góp của tần số hạn để liên quan đến tài liệu về cơ bản là một chức năng tuyến tính phụ ... do đó các bản ghi để gần đúng chức năng ... Read More chức năng idf có thể tăng quá nhiều điểm tài liệu với các thuật ngữ idf cao (có thể là hiếm hoi erms do lỗi chính tả) ... một chức năng sublinear thực hiện tốt hơn nhiều ...

19

Câu trả lời của câu trả lời là chính xác. Tôi không chắc tại sao anh ta lại bị downvote.

Dưới đây là trực giác: Nếu tần suất cụm từ cho từ 'máy tính' trong doc1 là 10 và doc2 là 20, chúng ta có thể nói doc2 có liên quan hơn doc1 cho từ 'máy tính. Tuy nhiên, nếu tần suất của cùng một từ, 'máy tính' cho doc1 là 1 triệu và doc2 là 2 triệu, tại thời điểm này, không có nhiều khác biệt về thời hạn có liên quan nữa bởi vì cả hai đều chứa rất cao đếm cho thuật ngữ 'máy tính'.

Cũng giống như câu trả lời của Debasis, thêm nhật ký là làm giảm tầm quan trọng của cụm từ có tần suất cao, ví dụ: Sử dụng cơ sở log 2, số lượng 1 triệu sẽ được giảm xuống còn 19.9!

Chúng tôi cũng thêm 1 vào nhật ký (tf) vì khi tf bằng 1, nhật ký (1) bằng 0. bằng cách thêm một, chúng ta phân biệt giữa tf = 0 và tf = 1.

Hy vọng trợ giúp này!

Các vấn đề liên quan