2013-10-21 26 views
5

Tôi đã sử dụng các phiên bản TFIDF khác nhau trong scikit để tìm hiểu mô hình một số dữ liệu văn bản.Sử dụng sfikit-learn TfIdf với gensim LDA

vectorizer = TfidfVectorizer(min_df=1,stop_words='english') 

Kết quả là dữ liệu X là ở định dạng này:

<rowsxcolumns sparse matrix of type '<type 'numpy.float64'>' 
    with xyz stored elements in Compressed Sparse Row format> 

tôi muốn thử nghiệm với LDA như một cách để làm giảm chiều của ma trận thưa thớt của tôi. Có cách nào đơn giản để nạp ma trận thưa thớt NumPy X vào mô hình LDA gensim?

lda = models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=100) 

Tôi có thể bỏ qua scikit và đi theo hướng dẫn của gensim, nhưng tôi thích sự đơn giản của vectơ scikit và tất cả các tham số của nó.

Cảm ơn,

G

Trả lời

7

http://radimrehurek.com/gensim/matutils.html

class gensim.matutils.Sparse2Corpus(sparse, documents_columns=True) 

     Convert a matrix in scipy.sparse format into a streaming gensim corpus. 
+0

Awesome, cảm ơn! Đã làm chính xác những gì tôi cần! – ADJ

Các vấn đề liên quan