Tôi muốn sử dụng trí tuệ của bạn để chọn giải pháp phù hợp cho hệ thống kho dữ liệu. Dưới đây là một số chi tiết để hiểu rõ hơn vấn đề:20 Tỷ hàng/tháng - Hbase/Hive/Greenplum/Cái gì?
Dữ liệu được tổ chức trong cấu trúc lược đồ hình sao với một thực tế BIG và ~ 15 thứ nguyên.
20B thực tế hàng mỗi tháng
10 chiều với hàng trăm hàng (hơi thứ bậc)
5 kích thước với hàng ngàn hàng
2 chiều với ~ 200K hàng
2 kích thước lớn với hàng 50M-100M
Hai truy vấn điển hình chạy với DB này
Thành viên hàng đầu trong dimq:
select top X dimq, count(id)
from fact
where dim1 = x and dim2 = y and dim3 = z
group by dimq
order by count(id) desc
Các biện pháp chống lại một tuple:
select count(distinct dis1), count (distinct dis2), count(dim1), count(dim2),...
from fact
where dim1 = x and dim2 = y and dim3 = z
Câu hỏi:
- nền tảng tốt nhất để thực hiện truy vấn như vậy
- là gì Những loại cứng đồ cần thiết
đâu nó có thể được lưu trữ (EC2?)
(xin vui lòng bỏ qua nhập khẩu và các vấn đề tải vào lúc này)
Tnx,
A-ghê.
Miền ứng dụng nào là nguồn dữ liệu? – ConcernedOfTunbridgeWells
Hàng lớn đến mức nào? –
Bạn cần bao nhiêu người dùng và thời gian phản hồi nào? Bạn có tập trung ở đây trên các chuyên gia duy nhất với một rack lưỡi và báo cáo hàng tháng của mình hoặc bạn có muốn cung cấp cho thời gian thực truy cập trên toàn thế giới cho hàng ngàn người dùng cuối? 19 kích thước là rất nhiều cho materializing khối phụ. –