2013-10-11 20 views
5

Sử dụng phép phân lớp (ví dụ: vịnh ngây thơ hoặc SVM), và StringToWordVector, sẽ có thể sử dụng TF/IDF và đếm tần số cụm từ trong toàn bộ lớp hiện tại thay vì tìm kiếm trong một tài liệu?Có thể TF/IDF lấy các lớp học trong tài khoản

Để tôi giải thích, tôi muốn tính toán cho điểm cao đối với các từ rất thường xuyên cho một lớp nhất định (không chỉ cho một tài liệu nhất định) nhưng không thường xuyên trong toàn bộ kho văn bản.

Có thể thoát khỏi hộp hoặc điều này cần thêm một số phát triển không?

Cảm ơn :)

Trả lời

2

Tôi nghĩ bạn đang bối rối ở đây --- những gì bạn yêu cầu về bản chất là trọng lượng tính năng trong thuật ngữ đó đối với tài liệu của lớp đó. Đây là thuật toán học tập nhằm tối ưu hóa. Chỉ cần lo lắng về một đại diện hữu ích của các tài liệu, mà nhất thiết phải là bất biến đối với lớp mà chúng thuộc về (vì bạn sẽ không biết lớp cho các tài liệu kiểm tra không nhìn thấy được).

5

Tôi muốn tính toán để đưa ra điểm số cao để từ đó là rất thường xuyên cho một lớp nhất định (không chỉ dành riêng cho một tài liệu nhất định) nhưng không phải là rất thường xuyên trong cả corpus.

Bạn có vẻ muốn trọng số được giám sát. Tôi không biết bất kỳ việc triển khai nào có giá trị, nhưng có một máy chủ lưu trữ là literature about it. Ví dụ. lược đồ trọng số tf-χ² thay thế idf bằng kết quả của thử nghiệm độc lập χ², do đó các thuật ngữ phụ thuộc vào các lớp nhất định được tăng cường và có một số khác.

Tf-idf chính nó là do bản chất của nó không được giám sát.

0

Id đã thay đổi có thể giúp bạn trong một số cảnh.

Bạn có thể sử dụng idf định nghĩa là:
log (1 + p (hạn trong lớp này)/p (hạn trong lớp khác))

Nhược điểm: Mỗi lớp có một idf khác nhau, điều này có thể được hiểu là mọi thuật ngữ trong các lớp khác nhau có những đóng góp khác nhau trong việc phân biệt danh mục.

Ứng dụng: Bằng cách thêm idf trong Native Bayes, tôi nhận được cải thiện trong phân loại từ khóa truy vấn. Và nó hoạt động tốt khi trích xuất từ ​​khóa.

Các vấn đề liên quan