2014-06-09 14 views
8

Druid được sử dụng cho cả thời gian thực và xử lý theo lô. Nhưng nó có thể thay thế hoàn toàn hadoop? Nếu không phải lý do? Như lợi thế của hadoop trên druid là gì? Tôi đã đọc rằng druid được sử dụng cùng với hadoop. Vì vậy, việc sử dụng Hadoop có thể tránh được không?Có thể druid thay thế hadoop?

+0

Tôi nghĩ câu hỏi của bạn nên được lặp lại (và bạn có thể rút ra kết luận đó từ những gì @ nylon-nụ cười đã viết). Xem câu trả lời của tôi dưới đây. – user766353

Trả lời

6

Chúng tôi đang nói về hai công nghệ hơi liên quan nhưng rất khác nhau ở đây.

Druid là hệ thống phân tích thời gian thực và phù hợp hoàn hảo cho thời gian tập hợp và tổng hợp sự kiện dựa trên thời gian.

Hadoop là HDFS (một hệ thống tệp phân tán) + Bản đồ Giảm (một mô hình để thực hiện quy trình phân phối), cùng nhau tạo ra một hệ sinh thái để xử lý phân tán và hoạt động như công nghệ cơ bản/ảnh hưởng cho nhiều dự án nguồn mở khác.

Bạn có thể thiết lập druid để sử dụng Hadoop; nghĩa là kích hoạt các công việc MR để lập chỉ mục dữ liệu lô và đọc dữ liệu được lập chỉ mục từ HDFS (tất nhiên nó sẽ lưu chúng cục bộ trên đĩa cục bộ)

Nếu bạn muốn bỏ qua Hadoop, bạn có thể lập chỉ mục và tải từ một máy địa phương là tốt, tất nhiên với hình phạt bị giới hạn trong một máy.

4

Bạn có thể tránh sử dụng Hadoop với Druid không? Có, bạn có thể truyền dữ liệu trong thời gian thực vào một cụm Druid thay vì tải hàng loạt bằng Hadoop. Một cách để làm điều này là truyền dữ liệu vào Kafka, sẽ xử lý các sự kiện đến và chuyển chúng vào Storm, sau đó có thể xử lý và tải chúng vào các nút Druid Realtime.

Thông thường, thiết lập này được sử dụng với Hadoop song song, bởi vì dữ liệu thời gian thực được truyền trực tiếp đi kèm với hành lý của riêng nó và thường cần phải được sửa và chèn lấp. Toàn bộ kiến ​​trúc đó đã được một số người gọi là "Lambda".

Các vấn đề liên quan