2011-07-25 30 views
14

Tôi đang làm việc trên một dự án phân loại văn bản lớn và chúng tôi có dữ liệu văn bản (tin nhắn đơn giản) được lưu trữ trong HBase.HBase & Mahout - Sử dụng HBase làm Datastore/nguồn cho Mahout - Phân loại

Chúng tôi có hai vấn đề, trước tiên chúng tôi muốn sử dụng HBase làm nguồn cho các trình phân loại Mahout là Bayers và Random Forest. Thứ hai, chúng tôi muốn lưu trữ mô hình được tạo ra trong HBase thay vì sử dụng phương pháp tiếp cận bộ nhớ (InMemoryBayesDatastore) tuy nhiên khi bộ của chúng ta phát triển, chúng tôi đang gặp phải vấn đề với việc sử dụng bộ nhớ và muốn thử nghiệm HBase như một lựa chọn khả thi.

Có vẻ như có ít tài liệu trôi nổi xung quanh sử dụng HBase với Mahout và nếu có thể sử dụng nó làm nguồn dữ liệu tiềm năng. Tôi đang sử dụng API lõi của Mahout 0.6 trong Java có kho dữ liệu InMemory.

Làm một chút đào I belive rằng có (được) một thành phần HBase Bayers Datastore - org.apache.mahout.classifier.bayes.datastore.HBaseBayesDatastore Xem javadoc cũ ở đây: http://www.jarvana.com/jarvana/view/org/apache/mahout/mahout-core/0.3/mahout-core-0.3-javadoc.jar!/org/apache/mahout/classifier/bayes/datastore/HBaseBayesDatastore.html

Tuy nhiên, nhìn vào các tài liệu mới nhất có vẻ như tính năng này đã biến mất ..? https://builds.apache.org/job/Mahout-Quality/javadoc/

Tôi muốn biết liệu vẫn có thể sử dụng HBase làm nguồn dữ liệu cho Bayers và RandomForests và có bất kỳ trường hợp sử dụng nào trước đây không?

Cảm ơn!

+0

bạn có thể có cơ hội tốt hơn để nhận được câu trả lời này bằng cách đăng bài đăng này lên danh sách gửi thư thay thế – Jeffrey04

Trả lời

3

Không trực tiếp có thể, không. Bạn có thể khôi phục lại quá trình triển khai cũ này, và xóa nó đi và có thể làm cho nó hoạt động mà không gặp nhiều rắc rối. Nó đã thực sự được loại bỏ để mỏng xuống và tập trung dự án.

Bạn cũng có thể xem xét xuất dữ liệu của mình, dưới một dạng nào đó và thêm dữ liệu vào đại diện hoặc cửa hàng được hỗ trợ trực tiếp.

Nói chung, bạn có thể sử dụng HBase với Mahout nhờ thực tế là Mahout sử dụng Hadoop (chủ yếu) và Hadoop có thể sử dụng HBase. Đó không phải là hoàn cảnh ở đây; có một điểm tích hợp trực tiếp hơn ở đây, điều này đã không được chấp nhận.

Các vấn đề liên quan