Công thức cho IDF là nhật ký (N/df t) thay vì chỉ là N/df t.Tại sao nhật ký được sử dụng khi tính toán trọng số tần số hạn và IDF, tần suất tài liệu nghịch đảo?
Trong đó N = tổng tài liệu trong bộ sưu tập và df t = tần suất tài liệu của thuật ngữ t.
Nhật ký được cho là được sử dụng vì nó "làm giảm" ảnh hưởng của IDF. Điều đó có nghĩa là gì?
Ngoài ra, tại sao chúng ta sử dụng tần số log nặng cho tần số hạn như đã thấy ở đây: