2013-07-02 35 views
7

Tôi là sinh viên năm nhất ở LDA và tôi muốn sử dụng nó trong công việc của mình. Tuy nhiên, một số vấn đề xuất hiện.cách xác định số lượng chủ đề cho LDA?

Để có được hiệu suất tốt nhất, tôi muốn ước tính số chủ đề tốt nhất. Sau khi đọc "Tìm chủ đề khoa học", tôi biết rằng tôi có thể tính toán logP (w | z) trước hết và sau đó sử dụng trung bình điều hòa của một chuỗi P (w | z) để ước tính P (w | T).

Câu hỏi của tôi là "chuỗi" có nghĩa là gì?

Xin lỗi vì tiếng Anh của tôi và cảm ơn sự thông cảm của bạn.

Trả lời

6

Thật không may, không có khoa học khó khăn mang lại câu trả lời đúng cho câu hỏi của bạn. Theo hiểu biết tốt nhất của tôi, hierarchical dirichlet process (HDP) có thể là cách tốt nhất để đạt được số lượng chủ đề tối ưu.

Nếu bạn đang tìm kiếm phân tích sâu hơn, this paper on HDP báo cáo lợi thế của HDP trong việc xác định số lượng nhóm.

2

Đầu tiên một số người sử dụng điều hòa có nghĩa là để tìm tối ưu chủ đề no.of và tôi cũng đã thử nhưng kết quả là không đạt yêu cầu. Theo đề nghị của tôi, nếu bạn đang sử dụng R, sau đó gói "ldatuning" sẽ hữu ích. số liệu để tính các tham số no.of tối ưu. Một lần nữa lúng túng và đăng nhập dựa trên khả năng xác thực chéo V-fold cũng là lựa chọn rất tốt cho mô hình hóa chủ đề tốt nhất.V-Gấp chéo xác nhận là bit tốn thời gian cho tập dữ liệu lớn.Bạn có thể thấy "Một cách tiếp cận heuristic để xác định một chủ đề no.of thích hợp trong mô hình chủ đề ". Các liên kết quan trọng: https://cran.r-project.org/web/packages/ldatuning/vignettes/topics.html https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4597325/

Các vấn đề liên quan