Tôi đã sử dụng Ruby Classifier library đến classify privacy policies. Tôi đã đi đến kết luận rằng cách tiếp cận đơn giản của từ được xây dựng trong thư viện này là không đủ. Để tăng độ chính xác phân loại của tôi, tôi muốn đào tạo trình phân loại theo n-grams ngoài các từ riêng lẻ.Đào tạo Phân loại Naive Bayes trên ngram
Tôi đã tự hỏi liệu có thư viện nào ở đó để xử lý trước các tài liệu để có được các n-grams có liên quan (và xử lý đúng cách với dấu câu). Một ý nghĩ là tôi có thể xử lý trước các tài liệu và thức ăn chăn nuôi giả ngrams vào Ruby Phân loại như:
wordone_wordtwo_wordthree
Hoặc có thể có một cách tốt hơn để được làm điều này, chẳng hạn như một thư viện mà có ngram dựa trên Naive Bayes Phân loại được xây dựng vào nó từ getgo. Tôi đang mở để sử dụng các ngôn ngữ khác ngoài Ruby ở đây nếu họ nhận được công việc làm (Python có vẻ như một ứng cử viên tốt nếu cần).
câu trả lời tuyệt vời +1 – Yavar
NLTK có vẻ tuyệt vời theo nhiều cách so với những gì Ruby cung cấp. Python thắng, cảm ơn bạn! – babonk
@babonk niềm vui của tôi. Tôi đã tìm thấy nltk là một niềm vui để sử dụng và cực kỳ mạnh mẽ, hy vọng bạn có niềm vui với nó: D –