2011-10-31 31 views
7

Những sản phẩm (Mallet hoặc Weka) là tốt hơn cho công việc phân loại văn bản:Mallet vs Weka để phân loại văn bản

  1. đơn giản hơn để đào tạo
  2. Better quả
  3. Documentation

Tôi mới cho vấn đề này vì vậy mọi nhận xét sẽ tuyệt vời

Trả lời

4

MALLET dễ sử dụng hơn nhiều và thực hiện hầu hết công việc của tôi nvisibly. Bạn không cần phải chuyển đổi định dạng của bất kỳ thứ gì, bạn chỉ cần cung cấp cho nó các tệp văn bản và nó cung cấp cho bạn kết quả ngược lại.

Weka yêu cầu chuyển đổi văn bản thành định dạng cụ thể (tập lệnh Weka để làm như vậy nó rất chậm và không hiệu quả mà tôi khuyên bạn nên viết của riêng bạn).

Vấn đề với MALLET là đào tạo sử dụng GB bộ nhớ và có thể mất nhiều giờ, nếu bạn có tập huấn luyện lớn.

Weka có thêm tài liệu, nhưng hầu hết đều không có ý nghĩa. MALLET có rất ít tài liệu nhưng rất đơn giản để sử dụng.

Thành thật mà nói, sau khi kiểm tra cả hai, tôi đã chọn viết phân loại của riêng mình.

+1

Ack - Tôi đã viết các trình phân loại của riêng tôi trước (trong trường học), và bây giờ tôi ra ngoài tự nhiên bằng các công cụ của người khác (GUI-based !!), tôi sẽ không bao giờ quay trở lại. Kinh nghiệm của bạn hẳn đã khá khủng khiếp với những công cụ này để quay trở lại và cuộn lại. –

3

Tôi thực sự thích Weka vs Mallet. Có lẽ tôi chưa biết đủ, nhưng việc học máy với GUI là tuyệt vời. Bạn có thể tinh chỉnh các thông số và chạy các thử nghiệm khác nhau (giữ kết quả của các thí nghiệm trước đây trước mặt bạn) rất dễ dàng. Tôi mới đến Weka, vì vậy đây là FWIW.

Theo như cách nào đơn giản hơn để đào tạo, tôi thấy đơn giản hơn Weka. Tôi không biết bạn có thể kiểm soát loại không gian nào bằng cách chỉ vào Mallet ở một số văn bản (có thể là đủ tốt), nhưng kinh nghiệm của tôi với Mallet có thể so sánh với Weka ... viết kịch bản để lấy đầu vào định dạng phù hợp, với báo trước rằng tôi phải thực hiện nhiều bước để sử dụng một số loại phiên bản dữ liệu được tuần tự hóa trong Mallet.

Về các câu hỏi khác của bạn, tôi thực sự không thể trả lời chúng ngay bây giờ, nhưng tôi hy vọng câu trả lời này sẽ không bị downvoted vì dù sao cũng có thông tin tốt.

Các vấn đề liên quan