Tôi đang thực hiện Phân tích Dirichlet Latent cho một số nghiên cứu và tiếp tục gặp sự cố. Phần lớn phần mềm lda yêu cầu tài liệu phải ở định dạng doclines, nghĩa là tệp CSV hoặc tệp được phân tách khác trong đó mỗi dòng đại diện cho toàn bộ tài liệu. Tuy nhiên, Blei's lda-c và phần mềm mô hình chủ đề động yêu cầu dữ liệu phải ở định dạng: [M] [term_1]:[count] [term_2]:[count] ... [term_N]:[count]
trong đó [M]
là số lượng thuật ngữ duy nhất trong tài liệu và [count] được kết hợp với mỗi cụm là bao nhiêu lần cụm từ đó xuất hiện trong tài liệu. Lưu ý rằng [term_1]
là một số nguyên chỉ định cụm từ ; nó không phải là một chuỗi.Chuyển đổi một tài liệu trên mỗi dòng sang định dạng lda-c/dtm của Blei để lập mô hình chủ đề?
Có ai biết tiện ích nào sẽ cho phép tôi nhanh chóng chuyển đổi sang định dạng này không? Cảm ơn bạn.
Tôi gặp sự cố tương tự, bạn có tìm thấy giải pháp không? Cảm ơn. – user288609
Tôi chưa triển khai, nhưng [tiện ích Python này] (https://github.com/JoKnopp/text2ldac) đã được đăng lên danh sách gửi thư mô hình chủ đề và được cho là lấy các tệp văn bản và chuyển đổi chúng thành định dạng đúng. – Trey
Cảm ơn rất nhiều, nó rất hữu ích. – user288609