2016-01-11 23 views
7

Tôi đã thử word2vec một lúc rồi sử dụng thư viện word2vec của gensim. Câu hỏi của tôi là tôi phải xóa các từ dừng khỏi văn bản nhập liệu của mình? Bởi vì, dựa trên kết quả thử nghiệm ban đầu của tôi, tôi có thể thấy các từ như 'của', 'khi' .. (từ dừng) xuất hiện khi tôi làm một số model.most_similar('someword') ..?xóa từ dừng khi sử dụng word2vec

Nhưng tôi không thấy bất kỳ nơi nào đề cập đến việc loại bỏ từ dừng là cần thiết với word2vec? Liệu word2vec có nghĩa vụ xử lý các từ dừng ngay cả khi bạn không loại bỏ chúng?

Điều gì phải làm trước khi xử lý mọi thứ (như cho mô hình hóa chủ đề, gần như bạn phải làm việc loại bỏ từ dừng)?

+0

Tất cả phụ thuộc vào ứng dụng cuối cùng. Mục đích cuối cùng của việc sử dụng các vectơ từ là gì? – alvas

+0

muốn nhận các từ tương tự cho một từ nhất định bằng cách sử dụng "model.most_similar ('someword')" – KillBill

+2

Thực hiện một số đánh giá trên các mô hình có và không có từ dừng. Để xác minh mô hình của bạn, hãy kiểm tra mô hình đó với các từ đồng nghĩa trong WordNet. Và thne xem mô hình nào hoạt động tốt hơn. Cá nhân, tôi nghĩ rằng một với stopwords sẽ làm việc tốt hơn nhưng hiển thị nó theo kinh nghiệm thông qua thử nghiệm là quan trọng hơn là đoán ngẫu nhiên. – alvas

Trả lời

7

Personaly Tôi nghĩ rằng, loại bỏ các điểm dừng từ sẽ cho kết quả tốt hơn, kiểm tra link

Ngoài ra cho mô hình chủ đề, bạn shlould thực hiện tiền xử lý trên các văn bản, điều bạn phải làm sau,

  1. Remove của ngưng từ.
  2. Tokenization.
  3. Stemming and Lemmatization.
+0

Nếu bạn quan tâm đến lemmatizer chơi tốt với wordnet: thử https://gist.github.com/alvations/07758d02412d928414bb – alvas

8

Triển khai Gensim dựa trên mô hình Tomas Mikolov ban đầu của word2vec, downsamples tất cả các từ thường xuyên tự động dựa trên tần suất. Điều đó có nghĩa là, những từ này không được xem xét trong cửa sổ của từ được dự đoán. Tham số mẫu mặc định là 0,001 được sử dụng làm tham số để loại bỏ các từ đó. Nếu bạn muốn loại bỏ một số từ dừng cụ thể, mà sẽ không bị loại bỏ dựa trên tần suất của nó, bạn có thể làm điều đó. Tóm tắt: Kết quả sẽ không tạo ra bất kỳ sự khác biệt đáng kể nào nếu bạn ngừng loại bỏ từ.

Các vấn đề liên quan