2012-05-05 28 views

Trả lời

12

tf là tần số hạn idf là tần số tài liệu nghịch đảo mà là thu được bằng cách chia tổng số tài liệu theo số lượng tài liệu có chứa thuật ngữ, và sau đó lấy logarit của thương đó.

bắt nguồn hiệu lực thi hành được nhóm tất cả các từ được bắt nguồn từ gốc cùng (ví dụ: chơi, chơi, ..), nhóm này sẽ làm tăng sự xuất hiện của thân cây này vì tần số được tính bằng gốc không lời, Đối ví dụ: nếu bạn có 2 tài liệu: , đầu tiên chứa 'phát' 2 lần và 'phát' 5 lần, và tài liệu thứ hai chứa 'phát' 3 lần và 'phát' 1 lần nếu bạn thực hiện tìm kiếm ' chơi 'mà không xuất phát tài liệu thứ hai sẽ là đầu tiên bởi vì nó xuất hiện nhiều hơn từ' chơi ', trong khi nếu bạn bắt đầu, cả hai từ sẽ được' phát 'sau khi bắt đầu và tài liệu đầu tiên sẽ là nguyên nhân đầu tiên chứa số phát 7 lần và tài liệu thứ hai chứa số xuất phát phát 4 lần.

Liên quan đến việc loại bỏ từ dừng, nó được tìm thấy thường xuyên trong tất cả tài liệu và không được coi là từ khóa cho bất kỳ tài liệu nào, nó sẽ có freq cao mà không có cảnh nào.

Các vấn đề liên quan