Tôi đã thử word2vec một lúc rồi sử dụng thư viện word2vec của gensim. Câu hỏi của tôi là tôi phải xóa các từ dừng khỏi văn bản nhập liệu của mình? Bởi vì, dựa trên kết quả thử nghiệm ban đầu của tôi, tôi có thể thấy các từ như 'của', 'khi' .. (từ dừng) xuất hiện khi tôi làm một số model.most_similar('someword')
..?xóa từ dừng khi sử dụng word2vec
Nhưng tôi không thấy bất kỳ nơi nào đề cập đến việc loại bỏ từ dừng là cần thiết với word2vec? Liệu word2vec có nghĩa vụ xử lý các từ dừng ngay cả khi bạn không loại bỏ chúng?
Điều gì phải làm trước khi xử lý mọi thứ (như cho mô hình hóa chủ đề, gần như bạn phải làm việc loại bỏ từ dừng)?
Tất cả phụ thuộc vào ứng dụng cuối cùng. Mục đích cuối cùng của việc sử dụng các vectơ từ là gì? – alvas
muốn nhận các từ tương tự cho một từ nhất định bằng cách sử dụng "model.most_similar ('someword')" – KillBill
Thực hiện một số đánh giá trên các mô hình có và không có từ dừng. Để xác minh mô hình của bạn, hãy kiểm tra mô hình đó với các từ đồng nghĩa trong WordNet. Và thne xem mô hình nào hoạt động tốt hơn. Cá nhân, tôi nghĩ rằng một với stopwords sẽ làm việc tốt hơn nhưng hiển thị nó theo kinh nghiệm thông qua thử nghiệm là quan trọng hơn là đoán ngẫu nhiên. – alvas