Tôi đã sử dụng LingPipe - một bộ các thư viện Java để phân tích ngôn ngữ của ngôn ngữ loài người - khai thác văn bản (và có liên quan khác) nhiệm vụ.
Nó là một rất cũng ghi nhận gói phần mềm, và các trang web chứa một số hướng dẫn mà triệt để giải thích làm thế nào để làm một nhiệm vụ nhất định với LingPipe, chẳng hạn như named entity recognition. Ngoài ra còn có một nhóm tin tức, trong đó bạn có thể đăng bất kỳ câu hỏi nào về phần mềm (hoặc các nhiệm vụ liên quan đến NLP) và có trả lời nhanh từ các tác giả của gói; và tất nhiên, một số blog.
Mã nguồn cũng rất dễ theo dõi và được ghi lại đầy đủ, đối với tôi, luôn là một điểm cộng lớn.
Đối với thuật toán Machine Learning, có rất nhiều từ Naïve Bayes đến Conditional Random Field. Mặt khác, đối với các thuật toán khớp từ điển, chúng có một số ExactDicitonaryChunker, đây là một thuật toán thực hiện thuật toán Aho-Corasich (một thuật toán rất, rất nhanh cho tác vụ này). Tóm lại, tôi nghĩ rằng nó là một trong những gói phần mềm NLP tốt nhất cho Java (tôi đã không sử dụng tất cả các gói duy nhất được ra khỏi đó, vì vậy tôi không thể nói đó là tốt nhất), và tôi chắc chắn khuyên bạn nên nó cho công việc bạn có trong tầm tay.
Nguồn
2010-02-20 20:32:27
Tôi có một câu hỏi liên quan qua tại http://stackoverflow.com/questions/2293636/what-is-a-good-java-library-for-parts-of-speech - gắn thẻ – Glenn
Cảm ơn: P. Nên được tốt đẹp để sử dụng một trong những người gắn thẻ POS với một khuôn khổ rộng đáp ứng tất cả các yêu cầu IR khi sử dụng phương pháp ML. Lingpipe rất tốt cho các từ điển, nhưng nó không phải là miễn phí cho các công cụ thương mại. –