Tôi đã đọc LDA và tôi hiểu toán học về cách các chủ đề được tạo khi một chủ đề nhập một bộ sưu tập tài liệu. Các tài liệu tham khảo nói rằng LDA là một thuật toán, được cung cấp một bộ sưu tập tài liệu và không có gì nữa (không cần giám sát), có thể khám phá “chủ đề” được thể hiện bằng các tài liệu trong bộ sưu tập đó. Do đó, bằng cách sử dụng thuật toán LDA và trình lấy mẫu Gibbs Sampler (hoặc Variational Bayes), tôi có thể nhập một tập hợp các tài liệu và đầu ra tôi có thể lấy các chủ đề. Mỗi chủ đề là tập hợp các thuật ngữ có xác suất được gán.Mô hình chủ đề LDA - Đào tạo và thử nghiệm
Điều tôi không hiểu là, nếu điều trên là đúng, thì tại sao nhiều hướng dẫn mô hình hóa chủ đề lại nói về việc tách tập dữ liệu thành đào tạo và tập kiểm tra?
Bất cứ ai có thể giải thích cho tôi các bước (khái niệm cơ bản) về cách LDA có thể được sử dụng để đào tạo một mô hình, sau đó có thể được sử dụng để phân tích một tập dữ liệu thử nghiệm khác không?
câu hỏi hay! – KillBill