Tôi mới dùng máy tính song song và chỉ bắt đầu thử dùng MPI và Hadoop + MapReduce trên Amazon AWS. Nhưng tôi bối rối khi sử dụng cái kia.Hadoop MapReduce vs MPI (vs Spark vs Mahout vs Mesos) - Khi nào thì sử dụng cái kia?
Ví dụ, một quy tắc chung của ngón tay cái lời khuyên tôi thấy có thể được tóm tắt như ...
- dữ liệu lớn, không lặp đi lặp lại, lỗi khoan dung => MapReduce
- Speed, dữ liệu nhỏ, lặp đi lặp lại, loại không Mapper-Giảm => MPI
nhưng sau đó, tôi cũng thấy thi hành MapReduce trên MPI (MR-MPI) mà không cung cấp khả năng chịu lỗi nhưng seems to be hiệu quả hơn trên một số tiêu chuẩn so với MapReduce trên Hadoop, và dường như xử lý lớn d ata sử dụng bộ nhớ ngoài lõi.
Ngược lại, cũng có các triển khai MPI (MPICH2-YARN) trên Sợi Hadoop thế hệ mới với hệ thống tệp phân tán của nó (HDFS). Ngoài ra, có vẻ như có quy định trong phạm vi MPI (Scatter-Gather, Checkpoint-Restart, ULFM và fault tolerance) khác bắt chước một số tính năng của mô hình MapReduce.
Và Mahout, Mesos và Spark phù hợp với tất cả điều này như thế nào?
Tiêu chí nào có thể được sử dụng khi quyết định giữa (hoặc kết hợp) Hadoop MapReduce, MPI, Mesos, Spark và Mahout?
dup có thể có của http://stackoverflow.com/questions/1530490/what-are-some-scenarios-for-which-mpi-is-a-better-fit-than-mapreduce?rq=1? –
Tôi đã đọc q & a đó trước khi đăng bài của tôi. Ở đó, bạn sẽ thấy rằng đối với mỗi câu trả lời được đăng, có những nhận xét cho rằng câu trả lời là không chính xác. Lấy câu trả lời đầu tiên, ví dụ. Có các phần tử hữu hạn trên MapReduce [1] (http://milindb.tumblr.com/post/8782567841/mapreduce-pregel-and-fem-framework), [2] (http://ieeexplore.ieee.org/ xpl/login.jsp? tp = & arnumber = 6188175 & url = http% 3A% 2F% 2Fieeexplore.ieee.org% 2Fxpls% 2Fabs_all.jsp% 3Farnumber% 3D6188175). – crackjack
Sau khi tôi đã hỏi câu hỏi này, tôi đã gặp một vài lựa chọn khác (để thêm vào sự nhầm lẫn) - như Akka, dường như không bị giới hạn trong các kịch bản "rõ ràng song song" như MapReduce, đồng thời cũng bị lỗi và có ràng buộc Infiniband (TCP), v.v. – crackjack