Có, đào tạo trình phân loại Naive Bayes cho từng danh mục và sau đó gắn nhãn cho mỗi thư vào lớp dựa trên Trình phân loại cung cấp điểm cao nhất là cách tiếp cận đầu tiên tiêu chuẩn cho các vấn đề như thế này. Có nhiều thuật toán phân loại lớp đơn tinh vi hơn mà bạn có thể thay thế cho Naive Bayes nếu bạn thấy hiệu suất không đầy đủ, chẳng hạn như Máy hỗ trợ Vector (Tôi tin là có sẵn trong NLTK thông qua một plug Weka, nhưng không tích cực). Trừ khi bạn có thể nghĩ về bất cứ điều gì cụ thể trong lĩnh vực này vấn đề mà sẽ làm cho Naieve Bayes đặc biệt là không phù hợp, của nó ofen đi-to "đầu tiên thử" cho rất nhiều dự án.
Trình phân loại NLTK khác mà tôi cân nhắc sẽ cố gắng là MaxEnt vì tôi tin rằng nó sẽ xử lý phân loại nhiều lớp. (Mặc dù cách tiếp cận phân lớp nhị phân rất chuẩn và phổ biến). Trong mọi trường hợp, điều quan trọng nhất là thu thập một kho dữ liệu văn bản được gắn thẻ rất lớn.
Nếu bằng "Tin nhắn văn bản" bạn đang đề cập đến các tin nhắn văn bản điện thoại di động thực tế rất ngắn và ngôn ngữ rất chính thức và đa dạng, tôi cho rằng lựa chọn tính năng có thể trở thành yếu tố lớn hơn trong việc xác định độ chính xác. lựa chọn cho bạn. Ví dụ, sử dụng Stemmer hoặc Lemmatizer để hiểu các từ viết tắt và thành ngữ được sử dụng, gắn thẻ một phần lời nói hoặc đoạn trích, trích xuất thực thể, trích xuất mối quan hệ giữa các cụm từ có thể cung cấp nhiều bang hơn sử dụng các trình phân loại phức tạp hơn.
Bài viết này nói về việc phân loại các thông báo trạng thái trên Facebook dựa trên tình cảm, có một số vấn đề tương tự và có thể cung cấp một số thông tin chi tiết về vấn đề này. Các liên kết là một bộ nhớ cache của google vì tôi đang gặp vấn đề w/trang web gốc:
http://docs.google.com/viewer?a=v&q=cache:_AeBYp6i1ooJ:nlp.stanford.edu/courses/cs224n/2010/reports/ssoriajr-kanej.pdf+maxent+classifier+multiple+classes&hl=en&gl=us&pid=bl&srcid=ADGEESi-eZHTZCQPo7AlcnaFdUws9nSN1P6X0BVmHjtlpKYGQnj7dtyHmXLSONa9Q9ziAQjliJnR8yD1Z-0WIpOjcmYbWO2zcB6z4RzkIhYI_Dfzx2WqU4jy2Le4wrEQv0yZp_QZyHQN&sig=AHIEtbQN4J_XciVhVI60oyrPb4164u681w&pli=1
Cảm ơn rất nhiều vì câu trả lời.Tôi đang phân loại các tin nhắn SMS và ngôn ngữ rất chính thức (rõ ràng) khoảng 50% các từ là OOV (ngoài vốn từ vựng) nên tôi đã chuẩn hóa các SMS đó thành văn bản tiếng Anh thích hợp với khoảng 15-20% OOV bằng công cụ dịch thuật . Bạn có đề xuất bất kỳ cách nào khác để bình thường hóa các tin nhắn văn bản này không. – Maggie
Rất tiếc, tôi không thể nhận xét về bình thường hóa văn bản như tôi biết bên cạnh không có gì về nó. Có thể có từ điển biểu tượng cảm xúc và từ viết tắt? Twitter + SMS thực sự khó! – nflacco