Tôi đang trong giai đoạn lập kế hoạch của cụm nhiều nút Hadoop
trong môi trường dựa trên Docker
. Vì vậy, nó nên được dựa trên một hệ thống ảo hóa dễ sử dụng nhẹ. Kiến trúc hiện tại (liên quan đến tài liệu) chứa 1 nút chính và 3 nút phụ. Máy chủ lưu trữ này sử dụng hệ thống tệp HDFS
và KVM
để ảo hóa. Toàn bộ đám mây được quản lý bởi Cloudera Manager
. Có một số mô-đun Hadoop được cài đặt trên cụm này. Ngoài ra còn có dịch vụ tải lên dữ liệu NodeJS
. Lần này tôi nên làm cho kiến trúc Docker
dựa. Tôi đã đọc một số hướng dẫn và có một số ý kiến, nhưng cũng có câu hỏi mở.Cụm Hadoop nhiều nút với Docker
A. Bạn nghĩ gì, là https://github.com/Lewuathe/docker-hadoop-cluster là cơ sở tốt cho dự án của tôi? Tôi cũng tìm thấy một số image chính thức, nhưng nó là một nút duy nhất.
B. Yêu cầu hệ thống sẽ thay đổi như thế nào nếu tôi muốn thực hiện điều này trong một vùng chứa duy nhất? Nó sẽ là tuyệt vời, bởi vì kiến trúc này nên hoạt động ở các vị trí khác nhau, do đó, các thay đổi có thể dễ dàng được chuyển giữa các vị trí này. Sự đồng bộ hóa giữa những cái gọi là nhái này sẽ rất quan trọng.
C. Bạn có một số ý tưởng khác, có thể là các phương pháp hay nhất?
RAM 16 GB trên máy tính xách tay? Khá nhiều, vì vậy tôi nên sử dụng Amazon Machine Image để thay thế. –
Đúng vậy - nó đòi hỏi một máy khá mạnh. Chúng tôi khuyên bạn nên sử dụng RAM 16 GB nhưng bạn cần ít nhất 10 GB RAM chuyên dụng để chạy cấu hình đa nút tối thiểu (ví dụ: cụm hai nút của bản phân phối Hadoop đơn) hoặc nhiều bản phân phối trên máy tính xách tay của bạn. – BlueData
Nhưng khi bạn chỉ ra, bạn có thể sử dụng Amazon Machine Image để thay thế. – BlueData