Tôi sử dụng nhật ký API của mình để trích xuất thông tin như:Hbase vs Cassandra: Điều gì tốt hơn cho lưu trữ dữ liệu thời gian chờ?
- Trong khoảng thời gian này, có bao nhiêu người dùng API của tôi?
- Hoặc trong khoảng thời gian này, loại dịch vụ nào được gọi nhiều nhất?
Hầu như tất cả thông tin tôi trích xuất đều phụ thuộc vào dấu thời gian. Trên thực tế tôi sử dụng MongoDB và tôi đã thêm dấu thời gian làm chỉ mục (cho 80GB, kích thước chỉ mục là 12GB).
Việc di chuyển đến cassandra hoặc HBase đã được đề xuất cho tôi. Và tôi muốn biết điều gì tốt hơn cho trường hợp sử dụng của tôi:
- Phân tích dữ liệu thời gian.
- Cần có cả hiệu năng viết và đọc tốt.
- Khả năng sử dụng hadoop để thực hiện phân tích dữ liệu của tôi.
Cảm ơn bạn đã chia sẻ quan điểm hoặc trải nghiệm của mình.
Tùy thuộc vào loại môi trường bạn đang làm việc, việc nhận DataStax Enterprise có thể miễn phí. – mildewey
Nó dành cho triển khai thương mại nên nó được trả tiền. Nhưng Datastax có thể thiếu không khi tôi sử dụng Hadoop với Cassandra? – Mouna
Chúng tôi đang sử dụng Apache Spark với Apache Cassandra (không có DataStax Enterprise). Trong khi tôi đã phải viết một số kịch bản ban đầu cho tự động hóa, nhận được những điều đi đã được khá đơn giản. DSE cung cấp OOB tích hợp Hadoop/Solr/Spark/etc., trong khi bạn cần phải viết ra những gì bạn cần cho các phiên bản apache. Nếu tất cả những gì bạn đang tìm kiếm là phân tích chuỗi thời gian + truy vấn, Spark + Cassandra sẽ làm được nhiều việc hơn, trong khi không yêu cầu bạn thiết lập Hadoop. – ashic