2008-08-24 48 views
10

Tôi đang tìm thư viện hiện có để tóm tắt hoặc diễn giải nội dung (Tôi đang hướng tới các bài đăng trên blog) - bất kỳ trải nghiệm nào với các thư viện xử lý ngôn ngữ tự nhiên hiện có?Thư viện ngôn ngữ tự nhiên tốt để sử dụng để diễn giải là gì?

Tôi đang mở cho nhiều ngôn ngữ, vì vậy tôi quan tâm nhiều hơn đến khả năng chính xác của tính năng &.

Trả lời

0

Việc bạn tham gia vào miền loại AI thực sự xa. Tôi đã thực hiện nhiều công việc trong chuyển đổi văn bản thành kiến ​​thức máy chủ yếu bằng cách sử dụng tiếng Anh có kiểm soát (xem: http://attempto.ifi.uzh.ch/site/), nó là một ngôn ngữ tự nhiên (tiếng Anh) hoàn toàn có thể xử lý được thành nhiều ontology khác nhau, chẳng hạn như OWLDL.

Có vẻ như rằng sẽ chúng ta cách quá mức cần thiết mặc dù ...

Có một lý do để không chỉ tham gia một vài câu đầu tiên của bài viết trên blog của bạn và sau đó gắn thêm một hình elip cho tóm tắt của bạn?

0

Cảm ơn các liên kết đó. Có vẻ như GROK đã chết - nhưng nó có thể vẫn hoạt động cho mục đích của tôi.

thêm 2 liên kết:

Người Anh Attempto kiểm soát là một khái niệm thú vị: như đó là một cách hoàn toàn ngược lại nhìn vấn đề. Không thực sự thiết thực cho những gì tôi đang cố gắng làm.

@mmattax Đối với đề xuất tham gia một vài câu - tôi không cố gắng trình bày tóm tắt: nếu không thì đó sẽ là giải pháp tốt đẹp judo. Tôi đang tìm cách tóm tắt nội dung để sử dụng cho các mục đích đánh giá khác.

0

Có thể muốn thử GATE hoặc nguồn đóng, độc quyền và tốn kém TextAnalyst COM API

5

Tôi nghĩ rằng anh ấy muốn tạo bài đăng trên blog bằng cách tự động diễn giải bất cứ điều gì là nó các blog hệ thống này là giám sát. Điều này sẽ thực sự thú vị nếu bạn có thể kết hợp 2 đến 10 bài đăng trên blog tương tự nhau, nhưng từ các nguồn khác nhau và sau đó tự động tóm tắt "thật" (kích thước của 1 bài đăng blog).

Nó cũng có thể tuyệt vời cho Bài tập về nhà. Thật không may nó không phải là dễ dàng để làm.

Cách duy nhất tôi có thể thấy là có thể phân tách mọi câu thành "có nghĩa", và sau đó thay đổi ngẫu nhiên cấu trúc câu và một số từ giữ lại ý nghĩa.

Những câu có nghĩa giống nhau:

  • Tôi ghét anh chàng này, anh ấy rất ngớ ngẩn.
  • Anh chàng này ngu ngốc, tôi ghét anh ấy.
  • Tôi khinh thường anh chàng câm này.
  • Anh ấy câm, tôi ghét anh ấy.

Sẽ là không cần thiết để viết chương trình chuyển một trong các câu này sang câu khác, đây là những câu đơn giản, câu thực từ các blog phức tạp hơn nhiều.

9

Có một số cuộc thảo luận về Grok. Điều này bây giờ được hỗ trợ như OpenCCG, và sẽ được reimplemented trong OpenNLP là tốt.

Bạn có thể tìm OpenCCG tại http://openccg.sourceforge.net/. Tôi cũng sẽ đề nghị trình phân tích cú pháp Curran và Clark CCG có sẵn tại đây: http://svn.ask.it.usyd.edu.au/trac/candc/wiki

Về cơ bản, để diễn giải, bạn cần viết một thứ gì đó phân tích cú pháp câu đầu tiên của blog, trích xuất ý nghĩa ngữ nghĩa của bài viết, và sau đó tìm kiếm thông qua không gian từ vựng mà sẽ tạo thành ngữ nghĩa tương tự, và sau đó chọn một từ không phù hợp với câu hiện tại. Điều này sẽ mất nhiều thời gian và có thể không có ý nghĩa gì nhiều. Đừng quên rằng để làm điều này, bạn sẽ cần độ phân giải anaphora gần như hoàn hảo và khả năng nhận suy luận mức độ diễn ngôn.

Nếu bạn chỉ đang tìm kiếm các bài đăng trên blog không có nội dung trùng lặp có thể nhận dạng máy, bạn luôn có thể sử dụng các biến đổi chủ đề và tiêu điểm và từ đồng nghĩa WordNet. Có chắc chắn là các trang web đã kiếm tiền từ AdWords đã thực hiện điều này trước đây.

Các vấn đề liên quan