2012-01-05 26 views
5

Tôi đang thực hiện Phân tích Dirichlet Latent cho một số nghiên cứu và tiếp tục gặp sự cố. Phần lớn phần mềm lda yêu cầu tài liệu phải ở định dạng doclines, nghĩa là tệp CSV hoặc tệp được phân tách khác trong đó mỗi dòng đại diện cho toàn bộ tài liệu. Tuy nhiên, Blei's lda-c và phần mềm mô hình chủ đề động yêu cầu dữ liệu phải ở định dạng: [M] [term_1]:[count] [term_2]:[count] ... [term_N]:[count] trong đó [M] là số lượng thuật ngữ duy nhất trong tài liệu và [count] được kết hợp với mỗi cụm là bao nhiêu lần cụm từ đó xuất hiện trong tài liệu. Lưu ý rằng [term_1] là một số nguyên chỉ định cụm từ ; nó không phải là một chuỗi.Chuyển đổi một tài liệu trên mỗi dòng sang định dạng lda-c/dtm của Blei để lập mô hình chủ đề?

Có ai biết tiện ích nào sẽ cho phép tôi nhanh chóng chuyển đổi sang định dạng này không? Cảm ơn bạn.

+0

Tôi gặp sự cố tương tự, bạn có tìm thấy giải pháp không? Cảm ơn. – user288609

+1

Tôi chưa triển khai, nhưng [tiện ích Python này] (https://github.com/JoKnopp/text2ldac) đã được đăng lên danh sách gửi thư mô hình chủ đề và được cho là lấy các tệp văn bản và chuyển đổi chúng thành định dạng đúng. – Trey

+0

Cảm ơn rất nhiều, nó rất hữu ích. – user288609

Trả lời

4

Nếu bạn đang làm việc với R, gói lda chứa một hàm lexicalize rằng sẽ chuyển đổi văn bản thô thành định dạng LDA-c cần thiết cho gói lda.

example <- c("I am the very model of a modern major general", 
      "I have a major headache") 

corpus <- lexicalize(example, lower=TRUE) 

Tương tự, gói topicmodels có chức năng dtm2ldaformat rằng sẽ chuyển đổi một ma trận hạn tài liệu sang định dạng Lda. Bạn có thể chuyển đổi tài liệu văn bản thuần túy thành ma trận thuật ngữ tài liệu bằng cách sử dụng gói tm, cũng trong R.

Vì vậy, với các chức năng hiện tại, có rất nhiều sự linh hoạt trong việc nhập văn bản vào R để lập mô hình chủ đề.

2

Gensim cung cấp triển khai định dạng tập dữ liệu của Blei. Xem here. Bạn có thể viết một kho văn bản nhanh dựa trên tệp CSV của bạn trong Python và sau đó lưu nó trong lda-c với gensim. Nó không quá khó.

Các vấn đề liên quan