gì bạn có nghĩa là bằng cách phân loại là rất quan trọng.
Phân loại là một nhiệm vụ được giám sát, yêu cầu trước đó phải được dán nhãn trước. Di chuyển từ kho dữ liệu đã được dán nhãn, bạn phải tạo một mô hình bằng cách sử dụng một số phương thức và cách tiếp cận và cuối cùng bạn có thể phân loại một kho dữ liệu thử nghiệm không dán nhãn bằng cách sử dụng mô hình đó. Trong trường hợp này, bạn có thể sử dụng một trình phân loại nhiều lớp, thường là một ứng dụng cây nhị phân của một trình phân loại nhị phân. Cách tiếp cận hiện đại cho loại công việc như vậy là sử dụng một nhánh học máy, SVM. Hai trong số các trình phân loại SVM tốt nhất là LibSVM và SVMlight. Đây là những nguồn mở, dễ sử dụng và bao gồm các công cụ phân loại nhiều lớp. Cuối cùng, bạn phải thực hiện một cuộc khảo sát tài liệu để hiểu phải làm gì ngoài việc có được kết quả tốt, bởi vì việc sử dụng những bộ phân loại đó không đủ. Bạn phải thao tác/xử lý trước kho dữ liệu của mình để trích xuất các phần mang thông tin (ví dụ: unigrams) và loại trừ các phần nhiễu. Nói chung, bạn có thể có một chặng đường dài để đi, nhưng NLP là một chủ đề rất thú vị và đáng để làm việc.
Tuy nhiên, nếu ý bạn là phân loại theo nhóm thì vấn đề sẽ phức tạp hơn. Clustering là một nhiệm vụ không giám sát, có nghĩa là bạn sẽ không bao gồm thông tin cho chương trình bạn đang sử dụng về ví dụ nào thuộc về nhóm/chủ đề/lớp nào. Ngoài ra còn có các công trình hàn lâm về các phương pháp lai bán giám sát, nhưng chúng phân biệt một chút so với mục đích thực sự của vấn đề phân cụm. Việc xử lý trước mà bạn cần sử dụng trong khi thao tác kho văn bản của bạn mang tính chất tương tự với những gì bạn phải làm trong vấn đề phân loại, vì vậy tôi sẽ không đề cập đến nó nữa. Để thực hiện phân cụm, có một số phương pháp bạn phải tuân theo. Đầu tiên, bạn có thể sử dụng phương pháp LDA (Cấp phát Dirichlet Latinh) để giảm kích thước (số thứ nguyên không gian của bạn) của kho văn bản, điều này sẽ góp phần nâng cao hiệu quả và thông tin từ các tính năng. Bên cạnh hoặc sau LDA, bạn có thể sử dụng Phân cụm theo thứ bậc hoặc các phương pháp tương tự khác như K-Means để cụm cụm sao không được gắn nhãn của bạn. Bạn có thể sử dụng các công cụ Gensim hoặc Scikit-Learn làm các công cụ mã nguồn mở để phân cụm. Cả hai đều là công cụ mạnh mẽ, được tài liệu hóa và dễ sử dụng.
Trong mọi trường hợp, hãy học đọc rất nhiều và cố gắng hiểu lý thuyết bên dưới các nhiệm vụ và vấn đề đó. Bằng cách này, bạn có thể đưa ra các giải pháp sáng tạo và hiệu quả cho những gì bạn đang xử lý cụ thể, bởi vì các vấn đề trong NLP thường phụ thuộc vào corpus và bạn thường tự mình xử lý vấn đề cụ thể của mình. Rất khó để tìm ra các giải pháp chung và sẵn sàng để sử dụng và tôi cũng không khuyên bạn nên dựa vào một lựa chọn như vậy.
Tôi có thể trả lời quá cao câu hỏi của bạn, xin lỗi vì các phần không liên quan.
Chúc may mắn =)
Cảm ơn rất nhiều, Shane, cho câu trả lời của bạn.Tôi chắc chắn sẽ xem xét các tập dữ liệu bạn đã đề cập! Nhưng có, tôi chỉ làm việc trên dữ liệu tiếng Anh và các miền tin tức chung (tương tự như các bài viết được phân loại bởi Alchemy và OpenCalais). Tôi sẽ cho MALLET một shot. – MFARID
Tuyệt vời cho tôi biết nếu bạn có bất kỳ vấn đề gì! – Shane