2010-11-09 45 views
11

Tôi đang cố gắng giải quyết một vấn đề phân loại đơn giản.Phân loại dữ liệu bằng Apache Mahout

Sự cố:
Tôi có một bộ văn bản và tôi phải phân loại chúng dựa trên nội dung.

Giải pháp sử dụng Mahout:
Tôi hiểu rằng tôi phải chuyển đổi đầu vào thành tệp chuỗi để tạo mô hình. Vâng, tôi đã có thể làm được điều này. Bây giờ, làm cách nào để phân loại dữ liệu thử nghiệm của tôi? Ví dụ 20News chỉ kiểm tra tính chính xác. Nhưng, tôi muốn phân loại thực tế.
Tôi không chắc liệu mình có cần viết mã hay sử dụng một số lớp sẵn có để phân loại tập kiểm tra.?

Trả lời

3

Tôi ghét phải tự mình làm việc, nhưng chúng tôi đưa toàn bộ phần vào Mahout in Action về phân loại. Lý thuyết, các ví dụ về mã, thực hành nghiên cứu điển hình, thậm chí cả việc triển khai toàn bộ trang trại máy chủ.

Bạn có thể tải phiên bản tiền phát hành tại http://www.manning.com/owen/

+14

IMO, các phần về phân loại trong sách có thể được cải thiện. Các phần về phân loại là dài dòng, không rõ ràng và, thường, không liên tục. Có thể có nhiều ví dụ mã hóa java hơn và các ví dụ shell ít hơn. Phân loại có thể tốt hơn nếu nó được viết giống như các chương giới thiệu: Hiển thị định dạng cho các tệp phân loại, cách đọc chúng, cách tải chúng vào phân loại của bạn, sau khi được đào tạo, cách sử dụng trình phân loại để phân loại mẫu mới. –

+8

Tôi muốn Mahout có nhiều tài liệu hơn và tốt hơn. Những người là chuyên gia về học máy có một thời gian khó hiểu cấu trúc của đường ống xử lý và kiến ​​trúc mã. Ngay cả các javadocs sử dụng thuật ngữ không phù hợp (setGramSize nên được setNGramSize) ngữ nghĩa nhỏ làm cho một sự khác biệt HUGE trong việc hiểu các khái niệm và mã. –

3

Tôi đang gặp sự cố tương tự.

Chạy

bin/mahout org.apache.mahout.classifier.Classify --path <PATH TO MODEL> --classify <PATH TO TEXT FILE TO BE CLASSIFIED> --encoding UTF-8 --analyzer org.apache.mahout.vectorizer.DefaultAnalyzer --defaultCat unknown --gramSize 1 --classifierType bayes --dataSource hdfs 

sẽ phân loại một file văn bản dựa trên mô hình.

Điều này có thể giúp bạn tiến xa hơn một chút, nhưng tôi đoán rằng, giống như tôi, bạn muốn phân loại toàn bộ tải tài liệu và bạn muốn đầu ra ở định dạng hữu ích.

Có thể phải lập trình một chút java để thực hiện việc này. Ai đó có một ví dụ giống như nó sẽ làm những gì tôi muốn ở https://bitbucket.org/jaganadhg/blog/src/tip/bck9/java/src/org/bc/kl/ClassifierDemo.java

Các vấn đề liên quan