2011-10-13 40 views
6

Gói nguồn mở nào là tốt nhất để phân cụm một kho tài liệu lớn? Nó hoặc là nên quyết định số lượng các cụm của chính nó hoặc nó cũng có thể chấp nhận đó như là một tham số.Gói tài liệu nguồn mở phân cụm tốt nhất là gì?

Chúng tôi có một kho văn bản lớn không thực sự xoay quanh một chủ đề cụ thể - chúng là tài liệu do người bán và quản lý sản xuất trên nhiều dự án và khách hàng khác nhau trong tổ chức. Tôi biết rằng có một kho văn bản lan rộng như vậy sẽ làm giảm hiệu suất, nhưng chúng tôi đang cố gắng sống tốt nhất mà chúng ta có thể nhận được. Bây giờ, tốt nhất chúng ta có thể nhận được :-)

Trả lời

4

Một danh sách các phần mềm mô hình chủ đề từ trang chủ của một chuyên gia trong lĩnh vực này là gì: http://www.cs.princeton.edu/~blei/topicmodeling.html

Một nhóm cạnh tranh hàng đầu (với mã nguồn mở): http://nlp.stanford.edu/software/tmt/tmt-0.3/

Dự án java nguồn mở khác: http://mallet.cs.umass.edu/topics.php

+0

Xin chào, có điều gì đã thay đổi đáng kể trong thời gian chờ đợi? Tôi đã tìm thấy công cụ tuyệt vời này: https://code.google.com/p/maui-indexer/ – Kiril

Các vấn đề liên quan