Tôi hiện đang nghiên cứu về một chương trình phụ trợ để sử dụng cho một dự án có yêu cầu tổng hợp dữ liệu đòi hỏi. Các yêu cầu chính của dự án là như sau.Tập hợp dữ liệu mongodb vs mysql
Lưu trữ hàng triệu bản ghi cho mỗi người dùng. Người dùng có thể có hơn 1 triệu bài viết mỗi năm, ngay cả với 100 người dùng, chúng tôi đang nói về 100 triệu bài viết mỗi năm.
Tập hợp dữ liệu trên các mục nhập đó phải được thực hiện khi đang di chuyển. Người dùng cần có khả năng lọc các mục nhập của một tấn bộ lọc có sẵn và sau đó trình bày tóm tắt (tổng số, trung bình e.t.c) và đồ thị trên kết quả. Rõ ràng tôi không thể tính toán trước bất kỳ kết quả tổng hợp nào vì các kết hợp bộ lọc (và do đó các bộ kết quả) là rất lớn.
Người dùng sẽ chỉ có quyền truy cập vào dữ liệu của riêng họ nhưng sẽ rất tuyệt nếu số liệu thống kê ẩn danh có thể được tính cho tất cả dữ liệu.
Dữ liệu sẽ là phần lớn thời gian theo lô. ví dụ: người dùng sẽ tải lên dữ liệu mỗi ngày và có thể có 3000 hồ sơ. Trong một số phiên bản sau này, có thể có các chương trình tự động tải lên cứ vài phút trong các lô nhỏ hơn 100 mục chẳng hạn.
Tôi đã thực hiện một thử nghiệm đơn giản về việc tạo một bảng với 1 triệu hàng và thực hiện tổng đơn giản 1 cột cả trong mongodb và trong mysql và hiệu suất chênh lệch rất lớn. Tôi không nhớ những con số chính xác nhưng nó là một cái gì đó giống như mysql = 200ms, mongodb = 20 giây.
Tôi cũng đã thực hiện thử nghiệm với couchdb và có kết quả tồi tệ hơn nhiều.
Điều gì có vẻ hứa hẹn tốc độ khôn ngoan là cassandra mà tôi đã rất nhiệt tình khi lần đầu tiên tôi phát hiện ra nó. Tuy nhiên tài liệu khan hiếm và tôi đã không tìm thấy bất kỳ ví dụ cụ thể nào về cách thực hiện các khoản tiền và các hàm tổng hợp khác trên dữ liệu. Điều đó có thể không ?
Có vẻ như tôi đã thử nghiệm (Có thể tôi đã làm điều gì sai) với hiệu suất hiện tại không thể sử dụng mongodb cho dự án như vậy mặc dù chức năng tự động kích hoạt có vẻ hoàn toàn phù hợp với nó.
Có ai có kinh nghiệm về tập hợp dữ liệu trong Mongodb hoặc có bất kỳ thông tin chi tiết nào có thể trợ giúp cho việc triển khai dự án không?
Cảm ơn, Dimitris
Xin cảm ơn. Liên kết greenplum rất hữu ích vì tôi phát hiện ra có rất nhiều dbs ở đó giống như greenplum được tối ưu hóa cho những gì tôi cần làm. Phân tích dữ liệu khổng lồ. Một số khác là infobright mà cắm vào mysql và có vẻ đầy hứa hẹn. –
Nhìn vào điều này, có vẻ hoàn hảo cho Infobright – Amala