2008-09-15 40 views

Trả lời

2

Khi bạn trừ phần tử con người (gắn thẻ), tất cả những gì còn lại là tần số. "Bỏ qua các từ tiếng Anh thông dụng" là bộ lọc tốt nhất tiếp theo, vì nó đề cập đến loại trừ thay vì đưa vào. Tôi đã thử nghiệm một vài trang web và nó rất chính xác. Có thực sự không có cách nào khác để lấy được "ý nghĩa", đó là lý do tại sao Web ngữ nghĩa được rất nhiều sự chú ý những ngày này. Đó là một cách để ngụ ý ý nghĩa với HTML ... tất nhiên, có một yếu tố con người với nó là tốt.

0

lẽ "Tần Term - Inverse Document Frequency" TF-IDF sẽ có ích ...

1

Trong phân loại văn bản, vấn đề này được biết đến như giảm chiều. Có rất nhiều thuật toán hữu ích trong các tài liệu về chủ đề này.

1

Về cơ bản, đây là vấn đề phân loại văn bản/vấn đề phân loại tài liệu. Nếu bạn có quyền truy cập vào một số tài liệu đã được gắn thẻ, bạn có thể phân tích từ (nội dung) nào kích hoạt thẻ nào và sau đó sử dụng thông tin này để gắn thẻ các tài liệu mới.

Nếu bạn không muốn sử dụng phương pháp học máy và bạn vẫn có bộ sưu tập tài liệu, bạn có thể sử dụng các số liệu như tf.idf để lọc ra các từ thú vị.

Đi thêm một bước nữa, bạn có thể sử dụng Wordnet để tìm từ đồng nghĩa và thay thế các từ bằng từ đồng nghĩa của chúng, nếu tần suất của từ đồng nghĩa cao hơn.

Manning & Schütze chứa nhiều giới thiệu hơn về phân loại văn bản.

1

Bạn muốn làm semantic analysis của một văn bản.

Phân tích tần suất từ ​​là một trong những cách dễ nhất để thực hiện phân tích ngữ nghĩa. Thật không may (và rõ ràng) nó là một trong những chính xác nhất. Nó có thể được cải thiện bằng cách sử dụng các từ điển đặc biệt (như đối với các từ đồng nghĩa hoặc hình thức của một từ), "stop-lists" với các từ phổ biến, các văn bản khác (để tìm những từ "phổ biến" và loại trừ chúng) ...

As cho thuật toán khác họ có thể được dựa trên:

  • phân tích cú pháp (như cố gắng tìm chủ đề chính và/hoặc động từ trong một câu)
  • phân tích Format (phân tích tiêu đề, chữ in đậm, in nghiêng .. .nếu có)
  • phân tích tham khảo (nếu văn bản là trong Internet, ví dụ, sau đó một tài liệu tham khảo có thể miêu tả nó trong một vài lời ... được sử dụng bởi một số công cụ tìm kiếm)

NHƯNG ... bạn nên hiểu rằng các thuật toán này là các giả thiết về phân tích ngữ nghĩa, chứ không phải các thuật toán nghiêm ngặt để đạt được mục tiêu. Vấn đề phân tích ngữ nghĩa là một trong những vấn đề chính trong nghiên cứu trí tuệ nhân tạo/học máy kể từ khi các máy tính đầu tiên xuất hiện.

0

Bạn có thể sử dụng theo hai bước:

1 - Thử mô hình thuật toán chủ đề:

  • tiềm ẩn Allocation Dirichlet
  • từ tiềm ẩn Embeddings

2 - Sau đó bạn có thể chọn từ đại diện nhất của mỗi chủ đề làm thẻ

Các vấn đề liên quan