2012-03-24 48 views
5

Tôi đang xây dựng hệ thống để phân tích số lượng lớn dữ liệu tài chính liên quan đến giá giao dịch chứng khoán. Một thách thức lớn trong việc này là xác định phương pháp lưu trữ nào sử dụng cho dữ liệu cho rằng dữ liệu sẽ nằm trong 10 terrabyte. Sẽ có nhiều truy vấn trên dữ liệu như lấy trung bình, tính toán độ lệch chuẩn và tổng được lọc theo nhiều cột như giá, thời gian, âm lượng, v.v. Tham gia câu lệnh không phải là điều kiện tiên quyết, nhưng sẽ rất tuyệt.Lưu trữ dữ liệu để phân tích tài chính

Hiện tại, tôi đang xem phiên bản cộng đồng infobright, monetdb và phiên bản cộng đồng greenplum cho mục đích đánh giá. Họ có vẻ tuyệt vời cho đến nay, nhưng đối với các tính năng nâng cao hơn, một số yêu cầu không có sẵn trong một số phiên bản này (sử dụng nhiều máy chủ, chèn/cập nhật câu lệnh, v.v.).

Bạn sẽ sử dụng giải pháp nào cho tình huống này và lợi ích mà nó cung cấp qua các giải pháp thay thế? Chi phí hiệu quả là một điểm cộng lớn. Nếu tôi phải trả tiền cho một giải pháp kho dữ liệu, tôi sẽ, nhưng tôi muốn tránh nó và lấy lộ trình mã nguồn mở/cộng đồng nếu có thể.

+1

Số tiền thực tế (ngang), trung bình, stddevs - ngay cả khi được lọc - không khai thác dữ liệu. Họ chỉ đơn giản là ** nhà phê bình **. –

+1

Khai thác dữ liệu là khám phá thông tin mới từ một tập hợp dữ liệu. Thống kê là một công cụ để hỗ trợ trong quá trình này. Tôi không nghĩ rằng sự nhấn mạnh như vậy về thuật ngữ là có lợi, và nếu chúng ta tranh luận về nó, sẽ không thực hiện bất cứ điều gì.Nó giống như tôi nói rằng tôi không đồng ý với bài viết của bạn bởi vì bạn đã đánh sai số liệu thống kê là "nhà phê bình" - đó là sự nhấn mạnh không cần thiết về kỹ thuật. Mục tiêu của tôi là sử dụng cơ sở dữ liệu này để khám phá thông tin mới. Ngoài ra, các giải pháp kho dữ liệu được xây dựng với sự khai thác dữ liệu trong đầu. Do đó, khái niệm khai phá dữ liệu được áp dụng ở đây. – user396404

+0

Tuy nhiên, tôi đồng ý với bạn rằng "cơ sở dữ liệu" có lẽ là một thẻ tốt hơn cho bài đăng này. – user396404

Trả lời

1

Infobright mang lại hiệu năng truy vấn nhanh mà không có điều chỉnh, không có dự đoán và không lập chỉ mục trên khối lượng lớn dữ liệu. Khi tải dữ liệu, tôi đã thấy các trường hợp mà 80TB dữ liệu mỗi giờ có thể tải, hơn 12.000 lần chèn mỗi giây.

Tính năng này hoạt động như thế nào?

  1. Cột Định hướng vs Row Định hướng
  2. Gói dữ liệu cộng với trung bình nén 20: 1
  3. Kiến thức Lưới - đáp ứng thứ hai Sub trên truy vấn
  4. Hạt Engine, được xây dựng trên kiến ​​trúc mysql

Tôi vẫn đề xuất bạn xem xét xem xét cấp phép doanh nghiệp, nhưng bạn chắc chắn có thể đánh giá ấn bản cộng đồng và kiểm tra hiệu suất và nhu cầu tải dữ liệu của bạn.

Tuyên bố từ chối trách nhiệm: tác giả được liên kết với Infobright.

1

Tôi nghĩ rằng bất kỳ cơ sở dữ liệu nào bạn đề cập sẽ làm những gì bạn yêu cầu. Nếu bạn đang đối phó với 10 giá trị TB của dữ liệu nhận được một giấy phép doanh nghiệp để chạy trong một cụm MPP có lẽ sẽ là một sử dụng tốt của các quỹ để giữ cho thời gian xử lý xuống. Ngoài ra, nếu DW này sẽ được xử lý quan trọng cho tổ chức của bạn, có giấy phép có nghĩa là bạn nhận được sự hỗ trợ từ nhà cung cấp, điều quan trọng đối với rất nhiều doanh nghiệp. YMMV.

Câu hỏi quan trọng hơn sẽ là tỷ lệ nhập dữ liệu của bạn sẽ trông như thế nào? Đối với một hệ thống tài chính, tôi nghĩ rằng một phần lớn của phương trình nên là khả năng tiếp tục tải dữ liệu mới vào hệ thống của bạn trong khi tiếp tục xử lý bình thường của bạn.

Tôi chỉ quen thuộc với Greenplum trong danh sách ứng viên của bạn nhưng tôi biết rằng nó hoạt động tốt khi tải lượng lớn dữ liệu trong một khoảng thời gian ngắn. GP cũng có rất nhiều hàm thống kê và phân tích được tích hợp sẵn trong DB, bao gồm các hàm SQL dựng sẵn, MADLib, R, v.v.

Các vấn đề liên quan