2011-10-10 37 views
5

Tôi có một kho tài liệu và tôi muốn đại diện cho từng tài liệu dưới dạng vectơ. Về cơ bản, vector sẽ có 1 cho các từ hiện diện bên trong một tài liệu và cho các từ khác (có trong các tài liệu khác trong kho văn bản và không có trong tài liệu cụ thể này) nó sẽ có 0. Làm thế nào để tạo vectơ này cho tất cả các tài liệu trong Weka?Làm thế nào để tạo ra một túi từ bằng cách sử dụng Weka?

Có cách nào nhanh chóng để thực hiện việc này bằng Weka không? Tôi cũng muốn Weka để loại bỏ các từ dừng và vì vậy một số tiền xử lý nếu có thể trước khi nó tạo ra vectơ này.

Cảm ơn Abhishek S

Trả lời

7

Bạn muốn bộ lọc StringToWordVector.

Nó có các tùy chọn cho sự xuất hiện nhị phân và dừng, trong số nhiều trường hợp khác, chẳng hạn như bắt nguồn, cắt bớt danh sách từ, loại bỏ các cụm từ không thường xuyên, gấp chữ hoa chữ thường.

Các vấn đề liên quan