Apache Spark chạy trong bốn chế độ
- Local
- độc
0.123.
- Sợi
- Mesos
Tất cả các môi trường ba độc lập, Sợi và Mesos chế độ được phân phối. Trong môi trường phân tán, quản lý tài nguyên là rất cần thiết để quản lý tài nguyên máy tính. Vì vậy, để quản lý tài nguyên máy tính một cách hiệu quả, chúng tôi cần hệ thống quản lý tài nguyên tốt hoặc Lịch tài nguyên.
Độc lập là tốt cho cụm tia lửa nhỏ, nhưng nó không tốt cho cụm lớn hơn (Có một chi phí chạy các tia lửa daemon (master + slave) trong các nút cụm). Những daemon này yêu cầu tài nguyên chuyên dụng. Vì vậy, độc lập không được khuyến khích cho các cụm sản xuất lớn hơn.
Trong trường hợp chế độ YARN và Mesos, Spark chạy dưới dạng ứng dụng và không có chi phí tiện ích con nào. Vì vậy, chúng tôi có thể sử dụng hoặc YARN hoặc Mesos cho hiệu suất tốt hơn và khả năng mở rộng.
Giữa YARN và Mesos, tốt hơn nên sử dụng YARN nếu bạn đã chạy cụm Hadoop (Apache/CDH/HDP). Trong trường hợp của một dự án hoàn toàn mới, tốt hơn để sử dụng Mesos (Apache, Mesosphere). Ngoài ra còn có một điều khoản để sử dụng cả hai trong số họ theo cách colocated bằng cách sử dụng dự án được gọi là Apache Myriad.
Trong cả ba chế độ, Apache Mesos có tài nguyên tốt hơn khả năng quản lý.
Vui lòng xem liên kết này, nó chứa giải thích chi tiết từ chuyên môn về Sợi so với Mesos. http://www.quora.com/How-does-YARN-compare-to-Mesos
[Tuyên bố từ chối trách nhiệm: Không phải chuyên gia về sợi] Tôi nghĩ điều đó phụ thuộc rất lớn vào khối lượng công việc trong tương lai bạn dự định thêm vào cụm của mình. Mesos là một bộ lập lịch chung, trong khi Yarn được thiết kế phù hợp hơn cho khối lượng công việc của Hadoop. – rukletsov
Hãy xem câu hỏi SE có liên quan: http://stackoverflow.com/questions/28664834/which-cluster-type-should-i-choose-for-spark/34657719#34657719 –