2013-02-12 50 views
8

Tôi đang sử dụng Cassandra để lưu trữ dữ liệu và tổ chức của tôi để xử lý dữ liệu của tôi. Tôi có 5 máy mà tôi đã thiết lập cassandra và 2 máy tôi sử dụng làm nút phân tích (nơi chạy hive) Vì vậy, tôi muốn hỏi bản đồ có làm giảm chỉ trên hai máy (nút phân tích) và mang dữ liệu ở đó hay không nó cũng di chuyển quá trình/tính toán tới 5 nút cassandra và xử lý/tính toán dữ liệu trên các máy đó (Điều tôi biết là trong hadoop, quá trình di chuyển đến dữ liệu không phải dữ liệu để xử lý).Hadoop trên cơ sở dữ liệu cassandra

Trả lời

16

Nếu bạn muốn kết hôn với Hadoop và Cassandra - liên kết đầu tiên nên công ty DataStax được xây dựng xung quanh khái niệm này. http://www.datastax.com/ Họ xây dựng và hỗ trợ hadoop với HDFS thay thế bằng cassandra. Trong tốt nhất của sự hiểu biết của tôi - họ làm có dữ liệu địa phương: http://blog.octo.com/en/introduction-to-datastax-brisk-an-hadoop-and-cassandra-distribution/

Có câu trả lời tốt về Hadoop & Cassandra dữ liệu địa phương nếu bạn chạy MapReduce chống cassandra Cassandra and MapReduce - minimal setup requirements

Về câu hỏi của bạn - có một tradeof : a) Nếu bạn chạy Hadoop/Hive trên các nút riêng biệt, bạn mất vị trí dữ liệu và thông lượng dữ liệu của bạn bị giới hạn bởi băng thông mạng của bạn.
b) Nếu bạn chạy hadoop/Hive trên cùng một nút như cassandra chạy - bạn có thể lấy dữ liệu địa phương nhưng việc xử lý MapReduce đằng sau truy vấn hive có thể làm tắc nghẽn mạng của bạn (và các tài nguyên khác) và ảnh hưởng đến chất lượng dịch vụ của bạn từ cassandra.

Đề xuất của tôi sẽ có các nút hive riêng biệt nếu hiệu suất của cụm cassandra của bạn rất quan trọng.
Nếu cassandra của bạn chủ yếu được sử dụng như một kho dữ liệu và không xử lý các yêu cầu thời gian thực - thì việc chạy hive trên mỗi nút sẽ cải thiện hiệu năng và sử dụng phần cứng.

+0

Cảm ơn rất hữu ích –

Các vấn đề liên quan