2015-09-12 24 views
7

On FAQ của Spark nó cụ thể nói ta không phải sử dụng HDFS:Sử dụng Apache Spark với HDFS vs phân phối lưu trữ khác

Tôi có cần Hadoop chạy Spark?

Không, nhưng nếu bạn chạy trên một cụm, bạn sẽ cần một số dạng hệ thống tệp được chia sẻ (ví dụ, NFS được gắn ở cùng một đường dẫn trên mỗi nút). Nếu bạn có loại hệ thống tệp này, bạn có thể triển khai Spark ở chế độ độc lập.

Vì vậy, ưu điểm/nhược điểm của việc sử dụng Apache Spark với HDFS so với các hệ thống tệp được phân phối khác (chẳng hạn như NFS) nếu tôi không định sử dụng Hadoop MapReduce? Tôi sẽ thiếu một tính năng quan trọng nếu tôi sử dụng NFS thay vì HDFS cho lưu trữ các nút (cho trạm kiểm soát, shuffle tràn, vv)?

+0

Tôi đã xóa câu trả lời trước đó của mình. Câu hỏi SE này có thể hữu ích để so sánh HDFS và các lựa chọn thay thế khác: http://stackoverflow.com/questions/32669187/is-hdfs-necessary-for-spark-workloads/34789554#34789554 –

Trả lời

7

Sau một vài tháng và một số kinh nghiệm với cả NFS và HDFS, tôi bây giờ có thể trả lời câu hỏi của riêng tôi:

NFS phép để xem/thay đổi các tập tin trên một máy từ xa như thể họ đang lưu trữ một máy tính cục bộ . HDFS cũng có thể làm điều đó, nhưng nó được phân phối (trái ngược với NFS) và cũng có khả năng chịu lỗi và có khả năng mở rộng.

Lợi thế của việc sử dụng NFS là sự đơn giản của thiết lập, vì vậy tôi có thể sử dụng nó cho môi trường QA hoặc cụm nhỏ. Lợi thế của HDFS là khả năng chịu lỗi nhưng lợi thế lớn hơn, IMHO, là khả năng tận dụng địa phương khi HDFS được đặt cùng với các nút Spark cung cấp hiệu suất tốt nhất cho các trạm kiểm soát, đổ tràn, v.v.

+0

bạn sẽ có một số tài liệu cho thấy hiệu suất của NFS vs HDFS hoặc phân phối lợi thế so với độc lập. Tôi nhận thức được khả năng chịu lỗi trong hệ thống phân phối Cassandra, nhưng nếu bạn lan truyền hệ thống Spark xung quanh nó sẽ giúp ích như thế nào trong hệ sinh thái. – azngunit81

Các vấn đề liên quan