Tôi đã thiết lập bản thân mình với Amazon Elastic MapReduce để tạo ra các nhiệm vụ học tập máy tiêu chuẩn khác nhau. Tôi đã sử dụng Python rộng rãi cho việc học máy địa phương trong quá khứ và tôi không biết Java.Có thư viện học tập máy phân tán nào để sử dụng Python với Hadoop không?
Theo như tôi có thể nói không có thư viện Python phát triển tốt cho việc học máy được phân phối. Mặt khác, Java có Apache Mahout và gần đây hơn Oryx từ Cloudera.
Về cơ bản có vẻ như tôi phải chọn giữa hai tùy chọn. Slog thông qua song song các thuật toán của riêng tôi để sử dụng với Hadoop streaming hoặc một trong các Python wrapper for Hadoop cho đến khi các thư viện phong nha tồn tại hoặc chuyển sang Java để tôi có thể sử dụng Mahout/Oryx. Có một thế giới khác biệt giữa việc viết mã số từ của MapReduce của riêng bạn và viết ra bản đồ SVR của riêng bạn! Ngay cả với sự trợ giúp của các hướng dẫn tuyệt vời như this.
Tôi không biết đó là sự lựa chọn khôn ngoan, vì vậy câu hỏi của tôi là:
A) Có một số thư viện Python Tôi đã bỏ lỡ đó sẽ là hữu ích? Nếu không, bạn có biết nếu có bất kỳ sự phát triển nào sẽ hữu ích trong tương lai gần không?
B) Nếu câu trả lời cho câu hỏi trên không phải là lúc nào thì thời gian của tôi có thể dành nhiều thời gian hơn để chuyển sang Java?
Kiểm tra: http://stackoverflow.com/questions/4819437/javas-mahout-equivalent-in-python – alexplanation
Câu hỏi yêu cầu chúng tôi ** đề xuất hoặc tìm công cụ, thư viện hoặc tài nguyên ngoài trang web yêu thích ** là off-topic cho Stack Overflow vì chúng có xu hướng thu hút các câu trả lời và spam có ý kiến. Thay vào đó, [mô tả vấn đề] (http://meta.stackexchange.com/q/139399/) và những gì đã được thực hiện cho đến nay để giải quyết nó. –
Tiến hành [Khuyến nghị phần mềm] (http://area51.stackexchange.com/proposals/60887/software-recommendations?referrer=L1kFo5C96mMK8IujJZeI4A2) khi nó sẽ được mở. – user