2012-06-22 38 views
30

Tôi đã đọc LDA và tôi hiểu toán học về cách các chủ đề được tạo khi một chủ đề nhập một bộ sưu tập tài liệu. Các tài liệu tham khảo nói rằng LDA là một thuật toán, được cung cấp một bộ sưu tập tài liệu và không có gì nữa (không cần giám sát), có thể khám phá “chủ đề” được thể hiện bằng các tài liệu trong bộ sưu tập đó. Do đó, bằng cách sử dụng thuật toán LDA và trình lấy mẫu Gibbs Sampler (hoặc Variational Bayes), tôi có thể nhập một tập hợp các tài liệu và đầu ra tôi có thể lấy các chủ đề. Mỗi chủ đề là tập hợp các thuật ngữ có xác suất được gán.Mô hình chủ đề LDA - Đào tạo và thử nghiệm

Điều tôi không hiểu là, nếu điều trên là đúng, thì tại sao nhiều hướng dẫn mô hình hóa chủ đề lại nói về việc tách tập dữ liệu thành đào tạo và tập kiểm tra?

Bất cứ ai có thể giải thích cho tôi các bước (khái niệm cơ bản) về cách LDA có thể được sử dụng để đào tạo một mô hình, sau đó có thể được sử dụng để phân tích một tập dữ liệu thử nghiệm khác không?

+1

câu hỏi hay! – KillBill

Trả lời

30

Tách dữ liệu thành các bộ đào tạo và thử nghiệm là một bước phổ biến trong việc đánh giá hiệu suất của thuật toán học tập. Nó rõ ràng hơn cho việc học tập có giám sát, trong đó bạn đào tạo mô hình trên tập huấn luyện, sau đó xem mức độ phân loại của nó trên bộ kiểm tra phù hợp với nhãn lớp thực sự như thế nào. Đối với học tập không giám sát, đánh giá đó là một chút phức tạp hơn. Trong trường hợp lập mô hình chủ đề, một biện pháp phổ biến về hiệu suất là perplexity. Bạn đào tạo mô hình (như LDA) trên tập huấn luyện và sau đó bạn thấy cách mô hình "lúng túng" trên bộ thử nghiệm. Cụ thể hơn, bạn đo lường số lượng từ của các tài liệu kiểm tra được đại diện bởi các bản phân phối từ được đại diện bởi các chủ đề.

Tính phức tạp là tốt cho so sánh tương đối giữa các mô hình hoặc cài đặt thông số, nhưng giá trị số của nó không thực sự có ý nghĩa nhiều. Tôi thích để đánh giá mô hình chủ đề bằng cách sử dụng sau, phần nào dẫn sử dụng, quá trình đánh giá:

  1. Kiểm tra các chủ đề: Nhìn vào những lời cao nhất khả năng trong mỗi chủ đề. Chúng có âm thanh giống như chúng tạo thành một "chủ đề" gắn kết hay chỉ là một nhóm từ ngẫu nhiên?
  2. Kiểm tra các bài tập chủ đề: Giữ một vài tài liệu ngẫu nhiên từ đào tạo và xem chủ đề nào LDA gán cho chúng. Kiểm tra thủ công các tài liệu và các từ trên cùng trong các chủ đề được giao. Nó có giống như các chủ đề thực sự mô tả những gì các tài liệu đang thực sự nói về?

Tôi nhận ra rằng quá trình này không tốt và định lượng như người ta có thể thích, nhưng thành thật mà nói, các ứng dụng của mô hình chủ đề hiếm khi định lượng. Tôi đề nghị đánh giá mô hình chủ đề của bạn theo vấn đề bạn đang áp dụng nó.

Chúc may mắn!

+0

Cảm ơn gregamis vì lời giải thích tốt đẹp. Đối với số điểm của bạn 2). các bài tập chủ đề cho tài liệu, làm thế nào để bạn chuyển các chủ đề thành các từ trong một tài liệu? Bạn có tuần tự đi qua các từ trong tài liệu và tra cứu cùng một từ trong một chủ đề và gán chủ đề đó cho từ đó không? Vâng, nếu bạn làm điều đó, điều gì sẽ xảy ra khi một từ có mặt trong hơn 1 chủ đề với xác suất cao? Nói một ví dụ rất nhỏ, 'ngân hàng sông' và 'tài khoản ngân hàng'. – tan

+1

@tan: Các chủ đề nên được gán cho các tài liệu không phải từ. Cũng không phải bằng tay. –

+0

@gregamis: Cảm ơn bạn đã đăng bài này. Vì vậy, chúng ta có sử dụng LDA được giám sát/bất kỳ kỹ thuật mô hình hóa chủ đề nào khác để đánh giá các mô hình chủ đề không? – user1930402

Các vấn đề liên quan