2014-11-21 11 views
6

Tôi sử dụng nhật ký API của mình để trích xuất thông tin như:Hbase vs Cassandra: Điều gì tốt hơn cho lưu trữ dữ liệu thời gian chờ?

  • Trong khoảng thời gian này, có bao nhiêu người dùng API của tôi?
  • Hoặc trong khoảng thời gian này, loại dịch vụ nào được gọi nhiều nhất?

Hầu như tất cả thông tin tôi trích xuất đều phụ thuộc vào dấu thời gian. Trên thực tế tôi sử dụng MongoDB và tôi đã thêm dấu thời gian làm chỉ mục (cho 80GB, kích thước chỉ mục là 12GB).

Việc di chuyển đến cassandra hoặc HBase đã được đề xuất cho tôi. Và tôi muốn biết điều gì tốt hơn cho trường hợp sử dụng của tôi:

  • Phân tích dữ liệu thời gian.
  • Cần có cả hiệu năng viết và đọc tốt.
  • Khả năng sử dụng hadoop để thực hiện phân tích dữ liệu của tôi.

Cảm ơn bạn đã chia sẻ quan điểm hoặc trải nghiệm của mình.

Trả lời

-1

Kem sô-cô-la hoặc Vani - cái nào tốt hơn?

Tôi khuyên bạn nên là người ra quyết định tốt nhất. Thiết lập môi trường phát triển cho từng tùy chọn và điều này sẽ cho bạn biết nhiều hơn về các vấn đề về hoạt động và điều chỉnh hơn, tôi nghĩ, bất kỳ ai khác có thể cung cấp cho bạn. :)

5

Ưu điểm của Cassandra: Cassandra thường cho thấy hiệu suất tốt hơn (mặc dù cả hai đều tuyệt vời). Cassandra là dễ dàng hơn đáng kể để thiết lập và quản lý từ một điểm hoạt động (mặc dù có những công cụ sẽ giúp một trong hai cách).

Ưu điểm của HBase: Native đến hệ sinh thái hadoop

HBase sẽ yêu cầu bạn cài đặt hadoop dù sao, và bạn sẽ có được một tốt đẹp hai cho ai. Để sử dụng Cassandra, bạn có thể sẽ cần phải sử dụng DataStax Enterprise, một sản phẩm thương mại, không mã nguồn mở HOẶC điều tra bằng cách sử dụng Spark cho công việc phân tích của bạn có một trình kết nối nguồn mở với Cassandra.

+0

Tùy thuộc vào loại môi trường bạn đang làm việc, việc nhận DataStax Enterprise có thể miễn phí. – mildewey

+0

Nó dành cho triển khai thương mại nên nó được trả tiền. Nhưng Datastax có thể thiếu không khi tôi sử dụng Hadoop với Cassandra? – Mouna

+3

Chúng tôi đang sử dụng Apache Spark với Apache Cassandra (không có DataStax Enterprise). Trong khi tôi đã phải viết một số kịch bản ban đầu cho tự động hóa, nhận được những điều đi đã được khá đơn giản. DSE cung cấp OOB tích hợp Hadoop/Solr/Spark/etc., trong khi bạn cần phải viết ra những gì bạn cần cho các phiên bản apache. Nếu tất cả những gì bạn đang tìm kiếm là phân tích chuỗi thời gian + truy vấn, Spark + Cassandra sẽ làm được nhiều việc hơn, trong khi không yêu cầu bạn thiết lập Hadoop. – ashic

Các vấn đề liên quan