On FAQ của Spark nó cụ thể nói ta không phải sử dụng HDFS:Sử dụng Apache Spark với HDFS vs phân phối lưu trữ khác
Tôi có cần Hadoop chạy Spark?
Không, nhưng nếu bạn chạy trên một cụm, bạn sẽ cần một số dạng hệ thống tệp được chia sẻ (ví dụ, NFS được gắn ở cùng một đường dẫn trên mỗi nút). Nếu bạn có loại hệ thống tệp này, bạn có thể triển khai Spark ở chế độ độc lập.
Vì vậy, ưu điểm/nhược điểm của việc sử dụng Apache Spark với HDFS so với các hệ thống tệp được phân phối khác (chẳng hạn như NFS) nếu tôi không định sử dụng Hadoop MapReduce? Tôi sẽ thiếu một tính năng quan trọng nếu tôi sử dụng NFS thay vì HDFS cho lưu trữ các nút (cho trạm kiểm soát, shuffle tràn, vv)?
Tôi đã xóa câu trả lời trước đó của mình. Câu hỏi SE này có thể hữu ích để so sánh HDFS và các lựa chọn thay thế khác: http://stackoverflow.com/questions/32669187/is-hdfs-necessary-for-spark-workloads/34789554#34789554 –