2010-03-05 40 views
5

Tôi đã bắt đầu thực hiện dự án yêu cầu Xử lý Ngôn ngữ Tự nhiên. Chúng tôi đã thực hiện kiểm tra chính tả cũng như ánh xạ các câu cho các cụm từ và từ đồng nghĩa của chúng. Lần đầu tiên tôi nghĩ đến việc sử dụng GATE nhưng tôi đang bối rối về những gì để sử dụng? Tôi tìm thấy một bài đăng thú vị ở đây khiến tôi càng bối rối hơn.Gói Xử lý Ngôn ngữ Tự nhiên

http://lordpimpington.com/codespeaks/drupal-5.1/?q=node/5

Hãy giúp tôi quyết định điều gì phù hợp nhất với mục đích của tôi. Tôi đang làm việc một ứng dụng web mà chúng tôi sẽ công cụ NLP này như một dịch vụ.

+1

Không có thứ gì, theo nghĩa đen là 'NLP'. Sẽ tốt hơn nếu bạn thực sự cụ thể về các công việc bạn cần thực hiện. – bmargulies

+0

Xem những gì tôi về cơ bản cần là bất kỳ kiến ​​trúc/công cụ cơ bản nào có thể giúp tôi thiết lập các hệ thống học máy. Các câu mà đi vào như đầu vào cần phải được ánh xạ tới các cụm từ nhất định/từ đồng nghĩa của các cụm từ có thể có mặt trong câu. Ý kiến ​​nào của bản đồ câu mà cụm từ được thiết lập bởi tôi. – Arc

+2

Có vẻ như một bản sao của http://stackoverflow.com/questions/2061881/natural-language-parsing-tools-what-is-out-there-and-what-is-not với tôi. –

Trả lời

6

Bạn đã không thực sự cung cấp cho nhiều thông tin, nhưng cố gắng này: http://www.nltk.org/

Tôi không nghĩ NLTK không kiểm tra chính tả (Tôi có thể sai về vấn đề này), nhưng nó có thể làm thành phần của câu gắn thẻ cho văn bản đầu vào.

Đối tìm/phù hợp với các từ đồng nghĩa bạn có thể sử dụng giống như WordNet http://wordnet.princeton.edu/

Nếu bạn đang làm một cái gì đó thực sự tên miền cụ thể: Tôi muốn giới thiệu đến với ontology của riêng bạn với các điều kiện miền cụ thể.

+0

Có nhiều miền mà việc phân tích phải được thực hiện. Những gì bạn sẽ đề nghị trong trường hợp như vậy. Đối với một thiết lập cơ bản những gì tôi có thể sử dụng. Một cái gì đó giống như một GATE .. Làm thế nào nó có thể hữu ích? – Arc

+0

Nó phụ thuộc chặt chẽ đến mức nào chúng khớp với bản thể luận đã cho (như WordNet). Nếu bạn đang sử dụng hầu hết các từ trong cùng một cách mà bản thể luận được xác định trước là, thì bạn không cần phải cuộn của riêng bạn. Nếu bạn đang sử dụng các thuật ngữ giống nhau theo nhiều cách khác nhau thì bạn có thể cần tạo một cụm từ mới. Nếu bạn có nhiều tên miền sử dụng các thuật ngữ theo nhiều cách khác nhau, thì bạn có thể cần tạo nhiều tên miền. – adam

3

Nếu bạn đang sử dụng Python, bạn có thể phát triển trình kiểm tra chính tả bằng Python Enchant. NLTK cũng tốt cho việc phát triển hệ thống Phân tích cảm xúc. Tôi có một số nguyên mẫu của cùng một quá

Jaggu

Các vấn đề liên quan