Tôi đã thấy redhat đã đưa ra một giải pháp có thể có với GlusterFS làm việc như là phụ trợ cho hadoop. Trong trường hợp này, bạn có thể sử dụng kiến trúc nút tên/datanode và thay thế nó bằng glusterfs, trong khi đó bạn vẫn có Hadoop Mapreduce khả năng tương thích api.GlusterFS là phụ trợ cho Hadoop
Chỉ cần tự hỏi so sánh hiệu suất so với HDFS gốc như thế nào? Nó thực sự là sản xuất đã sẵn sàng chưa? Nó có hỗ trợ tất cả các hệ sinh thái hadoop không? ví dụ. Solr Cloud, Spark, Impala, v.v.
Bạn có thể cụ thể hơn một chút về lý do khiến nó hoạt động tốt hơn HDFS không? và những phần nào của HDFS là bắt buộc đối với một số khung công tác, ví dụ: Impala. – Shengjie
Các điểm chuẩn mà tôi đã thấy cho thấy rằng Luster có thời gian thực hiện truy vấn ít hơn so với HDFS. toàn bộ ý tưởng đi với hệ thống tập tin POSIX chủ yếu tập trung vào các điểm sau 1- Bạn bỏ qua phần nhập dữ liệu vào HDFS (điều này có thể mất vĩnh viễn nếu bạn có một tập dữ liệu rất lớn). 2 - bạn mất rất nhiều dung lượng đĩa với HDFS, việc triển khai POSIX FS dựa vào bảo vệ RAID của doanh nghiệp. Đối với Impala, tôi không chắc chắn những gì các phần của mã cần HDFS nhưng tôi không biết là ngày hôm nay bất kỳ Imapla chạy trên POSIX FS –
Cảm ơn rất nhiều cho lời giải thích. – Shengjie