Cảnh báo - chỉnh sửa chính:
MLlib là một tập hợp lỏng lẻo của các thuật toán cao cấp chạy trên Spark. Đây là những gì Mahout từng chỉ là Mahout cũ là trên Hadoop Mapreduce. Vào năm 2014, Mahout tuyên bố sẽ không còn chấp nhận mã Hadoop Mapreduce nữa và hoàn toàn chuyển sang phát triển mới cho Spark (với các động cơ khác có thể trong quá trình offing, như H2O).
Điều quan trọng nhất để thoát ra khỏi đây là một công cụ đại số và môi trường đại số tuyến tính được tối ưu hóa phân tán dựa trên Scala bao gồm một vỏ Scala tương tác. Có lẽ từ quan trọng nhất là "tổng quát". Kể từ khi nó chạy trên Spark bất cứ điều gì có sẵn trong MLlib có thể được sử dụng với các công cụ đại số tuyến tính của Mahout-Spark.
Nếu bạn cần một công cụ chung sẽ thực hiện rất nhiều công cụ như R nhưng trên dữ liệu thực sự lớn, hãy xem Mahout. Nếu bạn cần một thuật toán cụ thể, hãy xem từng thuật toán để xem chúng có gì. Ví dụ Kmeans chạy trong MLlib nhưng nếu bạn cần phải cluster A'A (một ma trận cooccurrence được sử dụng trong giới thiệu) bạn sẽ cần cả hai vì MLlib không có một transpose ma trận hoặc A'A (thực sự Mahout không một tối ưu hóa mỏng A'A để transpose được tối ưu hóa ra).
Mahout cũng bao gồm một số sáng tạo recommender building blocks cung cấp những thứ được tìm thấy trong không có PMNM nào khác.
Mahout vẫn có các thuật toán Hadoop cũ hơn nhưng các công cụ tính toán nhanh như Spark trở thành tiêu chuẩn mà hầu hết mọi người sẽ đầu tư ở đó.
Phiên bản tương lai của Mahout cũng sẽ sử dụng Spark thay vì (hoặc ngoài) MapReduce, như được thông báo vào tháng 4 năm 2014. – herman
Điều cần biết. Nhưng điều gì sẽ khác biệt với MLib? –
Sau đó, bây giờ Mahout được dựa trên Spark, sự khác biệt giữa Mahout và Spark là gì? – skan