2010-11-18 49 views
5

Bạn muốn biết và sử dụng các công cụ và khung công cụ khai phá dữ liệu miễn phí/mã nguồn mở nào cho dữ liệu văn bản?Động cơ và khung công tác khai thác dữ liệu?

Cảm ơn bạn đã được tư vấn!

+0

Bạn đang thực sự tìm kiếm một công cụ khai phá văn bản? Các công cụ khai thác dữ liệu có khuynh hướng hoạt động trên siêu dữ liệu thay vì bản thân văn bản. – ianmayo

Trả lời

1

Tôi không biết về các công cụ hoặc khung công tác, nhưng tôi đã sử dụng công cụ này được gọi là Weka, nó có rất nhiều thuật toán được triển khai trong đó.

+0

cảm ơn bạn! khi tôi tìm thấy tác giả đã viết cuốn sách hay http://www.cs.waikato.ac.nz/ml/weka/book.html – Edward83

3

Không thực sự chắc chắn về những gì bạn đang tìm kiếm. Có lẽ một cái gì đó như Lucene?

1

Và để xử lý văn bản (thay vì khai thác dữ liệu số và phân cụm) thì bộ công cụ NLTK đáng xem. Điều này nhằm mục đích dạy các kỹ thuật xử lý ngôn ngữ tự nhiên bằng Python. Vì vậy, nó là lý tưởng cho mày mò với, và bạn đang bị ràng buộc để tìm thấy nhiều lớp thành phần và triển khai hữu ích nếu bạn chọn sử dụng Python.

+0

cảm ơn bạn! nếu một trong những dự án của tôi sẽ được trên python tôi sẽ kiểm tra bộ công cụ này;) – Edward83

2

RapidMiner là nguồn mở và miễn phí và chạy trên các cửa sổ, mac, linux và là một chương trình dựa trên luồng công việc đồ họa đẹp mắt. Nó chạy tất cả mã Weka và tích hợp với R.

+0

@el cảm ơn bạn;) Tôi sẽ kiểm tra xem nó) – Edward83

0

Apache Mahout cung cấp một loạt các thuật toán phổ biến cũng có thể được áp dụng trên dữ liệu văn bản và cũng có khả năng mở rộng khá! Apache UIMA không cung cấp các thuật toán khai phá dữ liệu nhưng là một khuôn khổ được sử dụng rộng rãi trong xử lý ngôn ngữ tự nhiên.

1

RapidMiner là ưa thích giải pháp khai thác dữ liệu của tôi: http://www.RapidMiner.com/

Đây là cuộc khảo sát của các công cụ khai thác dữ liệu phổ biến nhất trong số các chuyên gia khai thác dữ liệu: http://www.kdnuggets.com/2011/05/tools-used-analytics-data-mining.html

KDnuggets Thăm dò ý kiến ​​năm 2011: RapidMiner là dữ liệu sử dụng rộng rãi nhất giải pháp khai thác trong số các chuyên gia khai thác dữ liệu trên toàn thế giới.

2

Weka và Rapidminer không mạnh về phân cụm. Họ chủ yếu là phân loại và dự đoán tương tự, nhưng rất ít phân cụm. Hãy xem ELKI, giống như WEKA một dự án đại học, nhưng có rất nhiều phương pháp phát hiện phân cụm và ngoại lệ.

1

Tôi là tác giả của phần mềm nguồn mở Java để khai thác mẫu thường xuyên. Nó cung cấp các thuật toán để khai thác các mẫu tuần tự, các quy tắc kết hợp, các tập hợp thường xuyên, v.v.

Mặc dù nó không được thiết kế đặc biệt cho khai thác văn bản, một số thuật toán có thể được áp dụng cho các mẫu văn bản thường xuyên. Ví dụ: nếu bạn muốn tìm một số chuỗi các từ xuất hiện thường xuyên trong một số câu, bạn có thể áp dụng thuật toán khai phá mẫu tuần tự. Nhưng để thực hiện điều đó, bạn cần phải xử lý trước khi áp dụng phần mềm của tôi để tệp văn bản của bạn có định dạng đúng.

Bạn có thể kiểm tra các phần mềm ở đây: http://www.philippe-fournier-viger.com/spmf/

3

Apache Mahout là một thư viện mã nguồn mở Machile Learning, có thể được sử dụng có hoặc không có MapReduce (Apache Hadoop).

Nó cung cấp việc thực hiện các thuật toán folloeing trong Java:

  • Collaborative Filtering
  • người dùng và người giới thiệu mục dựa
  • K-Means, Fuzzy K-Phương tiện phân nhóm
  • bình phím Shift phân nhóm
  • Nhóm quá trình Dirichlet
  • Cấp phát Dirichlet Latent
  • giá trị Số ít phân hủy
  • Parallel Pattern thường xuyên khai thác
  • bổ sung phân loại Naive Bayes
  • rừng ngẫu nhiên cây quyết định phân loại dựa

Bạn có thể đọc thêm: http://mahout.apache.org/

http://girlincomputerscience.blogspot.com.br/2010/11/apache-mahout.html

http://www.ibm.com/developerworks/java/library/j-mahout/

+0

cảm ơn bạn đã tư vấn :) – Edward83

Các vấn đề liên quan