2013-03-19 44 views

Trả lời

10

Chủ đề hoàn toàn khác với một nhóm tài liệu, sau khi tất cả, một chủ đề không bao gồm tài liệu.

Tuy nhiên, hai kỹ thuật này thực sự có liên quan. Tôi tin rằng Mô hình hóa chủ đề là một cách khả thi để quyết định các tài liệu tương tự như thế nào, do đó một cách khả thi để phân cụm tài liệu.

Để thể hiện từng tài liệu dưới dạng phân phối chủ đề (thực tế là vectơ), kỹ thuật mô hình hóa chủ đề giảm thứ nguyên tính năng từ số từ riêng biệt xuất hiện (trong kho văn bản) sang số chủ đề. Sự tương tự giữa các tài liệu 'Phân phối chủ đề có thể được tính toán bằng cách sử dụng các chỉ số Cosine và nhiều số liệu khác, phản ánh sự giống nhau của các tài liệu về các chủ đề/chủ đề mà chúng bao gồm. Dựa trên số đo tương tự đã được định lượng này, nhiều thuật toán phân cụm có thể được áp dụng cho nhóm các tài liệu.

Và theo nghĩa này, tôi nghĩ có thể nói rằng mô hình hóa chủ đề là một kỹ thuật để thực hiện phân cụm tài liệu.

1

Mối quan hệ giữa phân cụm và phân loại rất giống với mối quan hệ giữa mô hình chủ đề và phân loại nhiều nhãn.

Trong phân loại nhiều lớp một nhãn, chúng tôi chỉ gán một nhãn cho mỗi tài liệu. Và trong clustering chúng tôi đặt mỗi tài liệu chỉ trong một nhóm. Thực tế là chúng tôi không thể xác định trước các cụm khi chúng tôi xác định nhãn. Nếu chúng ta bỏ qua thực tế này, việc nhóm và ghi nhãn về cơ bản giống nhau.

Tuy nhiên, trong các vấn đề thực tế, phân loại phẳng không đủ. Tài liệu thường có liên quan đến nhiều loại/lớp. Vì vậy, chúng tôi tận dụng phân loại đa nhãn. Bây giờ, chúng ta có thể thấy mô hình chủ đề là phiên bản phân loại đa nhãn không giám sát khi chúng ta có thể đặt từng tài liệu theo nhiều nhóm/chủ đề. Ở đây một lần nữa, tôi bỏ qua một thực tế rằng chúng tôi không thể quyết định những chủ đề để sử dụng như nhãn trước.

Các vấn đề liên quan