Động cơ và khung công tác khai thác dữ liệu?

Bạn muốn biết và sử dụng các công cụ và khung công cụ khai phá dữ liệu miễn phí/mã nguồn mở nào cho dữ liệu văn bản?Động cơ và khung công tác khai thác dữ liệu?

Cảm ơn bạn đã được tư vấn!

Nguồn

2010-11-18 Edward83

Bạn đang thực sự tìm kiếm một công cụ khai phá văn bản? Các công cụ khai thác dữ liệu có khuynh hướng hoạt động trên siêu dữ liệu thay vì bản thân văn bản. – ianmayo

Tôi không biết về các công cụ hoặc khung công tác, nhưng tôi đã sử dụng công cụ này được gọi là Weka, nó có rất nhiều thuật toán được triển khai trong đó.

Nguồn

2010-11-18 00:57:24

cảm ơn bạn! khi tôi tìm thấy tác giả đã viết cuốn sách hay http://www.cs.waikato.ac.nz/ml/weka/book.html – Edward83

Không thực sự chắc chắn về những gì bạn đang tìm kiếm. Có lẽ một cái gì đó như Lucene?

Nguồn

2010-11-18 01:13:06

Và để xử lý văn bản (thay vì khai thác dữ liệu số và phân cụm) thì bộ công cụ NLTK đáng xem. Điều này nhằm mục đích dạy các kỹ thuật xử lý ngôn ngữ tự nhiên bằng Python. Vì vậy, nó là lý tưởng cho mày mò với, và bạn đang bị ràng buộc để tìm thấy nhiều lớp thành phần và triển khai hữu ích nếu bạn chọn sử dụng Python.

Nguồn

2010-11-18 01:14:09 winwaed

cảm ơn bạn! nếu một trong những dự án của tôi sẽ được trên python tôi sẽ kiểm tra bộ công cụ này;) – Edward83

RapidMiner là nguồn mở và miễn phí và chạy trên các cửa sổ, mac, linux và là một chương trình dựa trên luồng công việc đồ họa đẹp mắt. Nó chạy tất cả mã Weka và tích hợp với R.

Nguồn

2010-11-30 07:26:08

@el cảm ơn bạn;) Tôi sẽ kiểm tra xem nó) – Edward83

Apache Mahout cung cấp một loạt các thuật toán phổ biến cũng có thể được áp dụng trên dữ liệu văn bản và cũng có khả năng mở rộng khá! Apache UIMA không cung cấp các thuật toán khai phá dữ liệu nhưng là một khuôn khổ được sử dụng rộng rãi trong xử lý ngôn ngữ tự nhiên.

Nguồn

2011-04-25 10:15:39

RapidMiner là ưa thích giải pháp khai thác dữ liệu của tôi: http://www.RapidMiner.com/

Đây là cuộc khảo sát của các công cụ khai thác dữ liệu phổ biến nhất trong số các chuyên gia khai thác dữ liệu: http://www.kdnuggets.com/2011/05/tools-used-analytics-data-mining.html

KDnuggets Thăm dò ý kiến năm 2011: RapidMiner là dữ liệu sử dụng rộng rãi nhất giải pháp khai thác trong số các chuyên gia khai thác dữ liệu trên toàn thế giới.

Nguồn

2011-05-31 08:53:05

Weka và Rapidminer không mạnh về phân cụm. Họ chủ yếu là phân loại và dự đoán tương tự, nhưng rất ít phân cụm. Hãy xem ELKI, giống như WEKA một dự án đại học, nhưng có rất nhiều phương pháp phát hiện phân cụm và ngoại lệ.

Nguồn

2011-12-29 15:25:58

Tôi là tác giả của phần mềm nguồn mở Java để khai thác mẫu thường xuyên. Nó cung cấp các thuật toán để khai thác các mẫu tuần tự, các quy tắc kết hợp, các tập hợp thường xuyên, v.v.

Mặc dù nó không được thiết kế đặc biệt cho khai thác văn bản, một số thuật toán có thể được áp dụng cho các mẫu văn bản thường xuyên. Ví dụ: nếu bạn muốn tìm một số chuỗi các từ xuất hiện thường xuyên trong một số câu, bạn có thể áp dụng thuật toán khai phá mẫu tuần tự. Nhưng để thực hiện điều đó, bạn cần phải xử lý trước khi áp dụng phần mềm của tôi để tệp văn bản của bạn có định dạng đúng.

Bạn có thể kiểm tra các phần mềm ở đây: http://www.philippe-fournier-viger.com/spmf/

Nguồn

2012-03-18 16:36:20 Phil

Apache Mahout là một thư viện mã nguồn mở Machile Learning, có thể được sử dụng có hoặc không có MapReduce (Apache Hadoop).

Nó cung cấp việc thực hiện các thuật toán folloeing trong Java:

Collaborative Filtering
người dùng và người giới thiệu mục dựa
K-Means, Fuzzy K-Phương tiện phân nhóm
bình phím Shift phân nhóm
Nhóm quá trình Dirichlet
Cấp phát Dirichlet Latent
giá trị Số ít phân hủy
Parallel Pattern thường xuyên khai thác
bổ sung phân loại Naive Bayes
rừng ngẫu nhiên cây quyết định phân loại dựa

Bạn có thể đọc thêm: http://mahout.apache.org/

http://girlincomputerscience.blogspot.com.br/2010/11/apache-mahout.html

http://www.ibm.com/developerworks/java/library/j-mahout/

Nguồn

2013-02-06 10:48:24 Renata

cảm ơn bạn đã tư vấn :) – Edward83

Động cơ và khung công tác khai thác dữ liệu?

Trả lời

Các vấn đề liên quan