Tôi đã đọc về TfidfVectorizer implementation của scikit-học, tôi đừng hiểu cứu xem lỗi gì đầu ra của phương pháp này, ví dụ:TikidfVectorizer có nghĩa là gì?
new_docs = ['He watches basketball and baseball', 'Julie likes to play basketball', 'Jane loves to play baseball']
new_term_freq_matrix = tfidf_vectorizer.transform(new_docs)
print tfidf_vectorizer.vocabulary_
print new_term_freq_matrix.todense()
đầu ra:
{u'me': 8, u'basketball': 1, u'julie': 4, u'baseball': 0, u'likes': 5, u'loves': 7, u'jane': 3, u'linda': 6, u'more': 9, u'than': 10, u'he': 2}
[[ 0.57735027 0.57735027 0.57735027 0. 0. 0. 0.
0. 0. 0. 0. ]
[ 0. 0.68091856 0. 0. 0.51785612 0.51785612
0. 0. 0. 0. 0. ]
[ 0.62276601 0. 0. 0.62276601 0. 0. 0.
0.4736296 0. 0. 0. ]]
là gì (? ví dụ: u'me ': 8):
{u'me': 8, u'basketball': 1, u'julie': 4, u'baseball': 0, u'likes': 5, u'loves': 7, u'jane': 3, u'linda': 6, u'more': 9, u'than': 10, u'he': 2}
là này một ma trận hay chỉ là một vector ?, tôi không thể hiểu được cứu xem lỗi gì nói với tôi kết quả:
[[ 0.57735027 0.57735027 0.57735027 0. 0. 0. 0.
0. 0. 0. 0. ]
[ 0. 0.68091856 0. 0. 0.51785612 0.51785612
0. 0. 0. 0. 0. ]
[ 0.62276601 0. 0. 0.62276601 0. 0. 0.
0.4736296 0. 0. 0. ]]
Ai có thể giải thích cho tôi chi tiết hơn về các đầu ra này không?
Cảm ơn!
thông số u ở đầu ra là gì? Sử dụng một bản tải về mới của Anaconda/Scikit và nó không hiển thị. Bây giờ nó không được hiển thị trong đầu ra? – BluePython
FYI - đó là sự khác biệt giữa unicode hay không (được chỉ định trên các phiên bản trước Python 3). – BluePython