Ví dụ: chúng tôi đào tạo một mô hình word2vec sử dụng gensim
:Giải thích từ tương tự Word2Vec tiêu cực từ gensim
from gensim import corpora, models, similarities
from gensim.models.word2vec import Word2Vec
documents = ["Human machine interface for lab abc computer applications",
"A survey of user opinion of computer system response time",
"The EPS user interface management system",
"System and human system engineering testing of EPS",
"Relation of user perceived response time to error measurement",
"The generation of random binary unordered trees",
"The intersection graph of paths in trees",
"Graph minors IV Widths of trees and well quasi ordering",
"Graph minors A survey"]
texts = [[word for word in document.lower().split()] for document in documents]
w2v_model = Word2Vec(texts, size=500, window=5, min_count=1)
Và khi chúng ta truy vấn sự tương đồng giữa các từ, chúng ta tìm thấy điểm tương đồng tiêu cực:
>>> w2v_model.similarity('graph', 'computer')
0.046929569156789336
>>> w2v_model.similarity('graph', 'system')
0.063683518562347399
>>> w2v_model.similarity('survey', 'generation')
-0.040026775040430063
>>> w2v_model.similarity('graph', 'trees')
-0.0072684112978664561
Làm thế nào để chúng tôi giải thích các điểm tiêu cực?
Nếu mức độ tương tự cosin không nên là phạm vi [0,1]
?
Giới hạn trên và giới hạn dưới của hàm Word2Vec.similarity(x,y)
là gì? Có được không nhiều bằng văn bản trong các tài liệu: https://radimrehurek.com/gensim/models/word2vec.html#gensim.models.word2vec.Word2Vec.similarity = (
Nhìn vào mã Python wrapper, không có nhiều quá: https://github.com/RaRe-Technologies/gensim/blob/develop/gensim/models/word2vec.py#L1165
(Nếu có thể, xin vui lòng làm điểm tôi vào mã .pyx
của nơi các chức năng tương tự được thực hiện.)
Nếu nó đang sử dụng tính tương tự cosin, thì phạm vi là [-1, 1]. Từ bài viết wikipedia: "Do đó, một phán đoán về định hướng và không phải độ lớn: hai vectơ có cùng định hướng có độ tương tự cosin là 1, hai vectơ ở 90 ° có điểm tương đồng là 0, và hai vectơ đối nghịch với nhau có sự giống nhau -1, độc lập với độ lớn của chúng. " –
Độ tương tự của Cosine có thể được hiểu là sản phẩm chấm. Do đó, nếu hai từ có độ tương tự 0 cosin, chúng hoàn toàn trực giao, nghĩa là chúng có hai "ý nghĩa" khác nhau và hoàn toàn không liên quan. Trong khi một sự tương đồng tiêu cực có nghĩa là hai từ có liên quan trong thành phần, nhưng trong một thời trang ngược lại (hoặc tiêu cực). –