Tôi có mã này để tính toán độ tương tự của văn bản với tf-idf. from sklearn.feature_extraction.text import TfidfVectorizer
documents = [doc1,doc2]
tfidf = TfidfVectorizer().fit_transform(documents)
Tôi tính giá trị tf/idf của hai tài liệu. Sau đây là các tf/giá trị idf: 1.txt
0.0
0.5
2.txt
0.0
0.5
Các tài liệu này như: 1.txt = > dog cat
2.txt = > cat elephant
Làm thế nào tôi có thể sử
Tôi có một bảng trong DB của tôi chứa một cột trường văn bản miễn phí. Tôi muốn biết tần suất mỗi từ xuất hiện trên tất cả các hàng hoặc thậm chí có thể tính TF-IDF cho tất cả các từ, trong đó tài liệ
Làm cách nào để tìm thấy sự giống nhau về cosin giữa các vectơ? Tôi cần tìm sự giống nhau để đo lường mối liên hệ giữa hai dòng văn bản. Ví dụ, tôi có hai câu như: hệ thống giao diện người dùng máy gi