Tôi có một kho tài liệu và tôi muốn đại diện cho từng tài liệu dưới dạng vectơ. Về cơ bản, vector sẽ có 1 cho các từ hiện diện bên trong một tài liệu và cho các từ khác (có trong các tài liệu khác trong kho văn bản và không có trong tài liệu cụ thể này) nó sẽ có 0. Làm thế nào để tạo vectơ này cho tất cả các tài liệu trong Weka?Làm thế nào để tạo ra một túi từ bằng cách sử dụng Weka?
Có cách nào nhanh chóng để thực hiện việc này bằng Weka không? Tôi cũng muốn Weka để loại bỏ các từ dừng và vì vậy một số tiền xử lý nếu có thể trước khi nó tạo ra vectơ này.
Cảm ơn Abhishek S