Tôi đang sử dụng Cassandra để lưu trữ dữ liệu và tổ chức của tôi để xử lý dữ liệu của tôi. Tôi có 5 máy mà tôi đã thiết lập cassandra và 2 máy tôi sử dụng làm nút phân tích (nơi chạy hive) Vì vậy, tôi muốn hỏi bản đồ có làm giảm chỉ trên hai máy (nút phân tích) và mang dữ liệu ở đó hay không nó cũng di chuyển quá trình/tính toán tới 5 nút cassandra và xử lý/tính toán dữ liệu trên các máy đó (Điều tôi biết là trong hadoop, quá trình di chuyển đến dữ liệu không phải dữ liệu để xử lý).Hadoop trên cơ sở dữ liệu cassandra
Trả lời
Nếu bạn muốn kết hôn với Hadoop và Cassandra - liên kết đầu tiên nên công ty DataStax được xây dựng xung quanh khái niệm này. http://www.datastax.com/ Họ xây dựng và hỗ trợ hadoop với HDFS thay thế bằng cassandra. Trong tốt nhất của sự hiểu biết của tôi - họ làm có dữ liệu địa phương: http://blog.octo.com/en/introduction-to-datastax-brisk-an-hadoop-and-cassandra-distribution/
Có câu trả lời tốt về Hadoop & Cassandra dữ liệu địa phương nếu bạn chạy MapReduce chống cassandra Cassandra and MapReduce - minimal setup requirements
Về câu hỏi của bạn - có một tradeof : a) Nếu bạn chạy Hadoop/Hive trên các nút riêng biệt, bạn mất vị trí dữ liệu và thông lượng dữ liệu của bạn bị giới hạn bởi băng thông mạng của bạn.
b) Nếu bạn chạy hadoop/Hive trên cùng một nút như cassandra chạy - bạn có thể lấy dữ liệu địa phương nhưng việc xử lý MapReduce đằng sau truy vấn hive có thể làm tắc nghẽn mạng của bạn (và các tài nguyên khác) và ảnh hưởng đến chất lượng dịch vụ của bạn từ cassandra.
Đề xuất của tôi sẽ có các nút hive riêng biệt nếu hiệu suất của cụm cassandra của bạn rất quan trọng.
Nếu cassandra của bạn chủ yếu được sử dụng như một kho dữ liệu và không xử lý các yêu cầu thời gian thực - thì việc chạy hive trên mỗi nút sẽ cải thiện hiệu năng và sử dụng phần cứng.
- 1. Hadoop là cơ sở dữ liệu lưu trữ tài liệu
- 2. commitLog và SSTables trong cơ sở dữ liệu Cassandra
- 3. Mối quan hệ giữa Hadoop và cơ sở dữ liệu
- 4. Cơ sở dữ liệu Cassandra, giao diện python nào?
- 5. Thiết kế cơ sở dữ liệu thời gian trong Cassandra
- 6. LINQ trên nhiều cơ sở dữ liệu
- 7. Chuyển dữ liệu từ cơ sở dữ liệu này sang cơ sở dữ liệu khác
- 8. Cơ sở dữ liệu dựa trên tài liệu cho .NET
- 9. cơ sở dữ liệu node.js
- 10. Cơ sở dữ liệu dựa trên tài liệu nào có lợi thế hơn một cơ sở dữ liệu quan hệ?
- 11. Issue với Hector API và cơ sở dữ liệu Cassandra: khống và ngoại lệ
- 12. Cơ sở dữ liệu CUBRID
- 13. Thiết kế cơ sở dữ liệu SaaS - Nhiều Cơ sở dữ liệu? Tách?
- 14. Mẫu nhà máy cơ sở dữ liệu với nhiều cơ sở dữ liệu
- 15. Java, cách thay đổi cơ sở dữ liệu hiện tại sang cơ sở dữ liệu khác?
- 16. Lỗi khi kéo cơ sở dữ liệu mysql trong cơ sở dữ liệu mysql cục bộ
- 17. Bảng xóa MySQL - Cơ sở dữ liệu hiện tại hoặc mọi cơ sở dữ liệu?
- 18. Sao chép bảng từ một cơ sở dữ liệu sang một cơ sở dữ liệu khác
- 19. Tạo cơ sở dữ liệu từ cơ sở dữ liệu khác?
- 20. neo4j - đồ thị cơ sở dữ liệu cùng với một cơ sở dữ liệu quan hệ?
- 21. Tài liệu cơ sở dữ liệu Postgresql
- 22. Cơ sở dữ liệu ngang và Cơ sở dữ liệu dọc
- 23. Cập nhật mô hình từ cơ sở dữ liệu (Cơ sở dữ liệu đầu tiên)
- 24. cách tính số lượng giao dịch cơ sở dữ liệu trên giây và tăng trưởng cơ sở dữ liệu
- 25. Lớp cơ sở dữ liệu .NET và cơ sở dữ liệu
- 26. Một cơ sở dữ liệu và nhiều cơ sở dữ liệu
- 27. mangento trong cơ sở dữ liệu hoặc cơ sở oracle?
- 28. Lỗi khi tách cơ sở dữ liệu SQLite - cơ sở dữ liệu bị khóa
- 29. Phân loại phức tạp trên cơ sở dữ liệu MySQL
- 30. Khung thực thể ADO.Net trên nhiều cơ sở dữ liệu
Cảm ơn rất hữu ích –