2011-11-12 43 views
7

Vì vậy, tôi biết đây là một loại chủ đề lớn, nhưng tôi cần chấp nhận một đoạn văn bản và trích xuất các từ khóa thú vị nhất từ ​​đó. Văn bản đến từ phụ đề truyền hình, vì vậy chủ đề có thể từ tin tức đến thể thao đến các tham chiếu văn hóa pop. Có thể cung cấp loại hiển thị văn bản đến từ đó.Làm thế nào để trích xuất từ ​​khóa từ một khối văn bản trong Haskell

Tôi có ý tưởng phù hợp với văn bản dựa trên từ điển thuật ngữ mà tôi biết thú vị bằng cách nào đó.

Thư viện nào cho Haskell có thể giúp tôi với điều này?

Giả sử tôi có từ điển thuật ngữ thú vị và cơ sở dữ liệu để lưu trữ chúng, có cách tiếp cận cụ thể nào bạn muốn đề xuất để đối sánh từ khóa trong văn bản không?

Có cách tiếp cận rõ ràng nào mà tôi không nghĩ tới không?

Trả lời

1

Mở rộng trên bpgergo câu trả lời (nhưng tôi không có bất kỳ thông tin cụ thể nào về haskell), việc nhập tài liệu vào cơ sở dữ liệu quan hệ khá đơn giản và lập chỉ mục chúng với SOLR/lucene hoặc sphinx, một trong số đó phải có phần gốc trong cấu hình mặc định/được đề xuất của chúng. Và sau đó bạn có thể tìm kiếm tài liệu nào có cặp, danh ba, v.v. trong danh sách "các cụm từ thú vị"

Bạn có thể nhìn vào nhận dạng thực thể được đặt tên, Phát hiện cụm từ không bình thường về thống kê, tạo thẻ tự động, các chủ đề tương tự. Lingpipe là một nơi tốt để bắt đầu, cũng những cuốn sách này:

http://alias-i.com/lingpipe/demos/tutorial/read-me.html

http://www.manning.com/marmanis/excerpt_contents.html

http://www.manning.com/alag/excerpt_contents.html

Các vấn đề liên quan