Tôi đang xây dựng hệ thống để phân tích số lượng lớn dữ liệu tài chính liên quan đến giá giao dịch chứng khoán. Một thách thức lớn trong việc này là xác định phương pháp lưu trữ nào sử dụng cho dữ liệu cho rằng dữ liệu sẽ nằm trong 10 terrabyte. Sẽ có nhiều truy vấn trên dữ liệu như lấy trung bình, tính toán độ lệch chuẩn và tổng được lọc theo nhiều cột như giá, thời gian, âm lượng, v.v. Tham gia câu lệnh không phải là điều kiện tiên quyết, nhưng sẽ rất tuyệt.Lưu trữ dữ liệu để phân tích tài chính
Hiện tại, tôi đang xem phiên bản cộng đồng infobright, monetdb và phiên bản cộng đồng greenplum cho mục đích đánh giá. Họ có vẻ tuyệt vời cho đến nay, nhưng đối với các tính năng nâng cao hơn, một số yêu cầu không có sẵn trong một số phiên bản này (sử dụng nhiều máy chủ, chèn/cập nhật câu lệnh, v.v.).
Bạn sẽ sử dụng giải pháp nào cho tình huống này và lợi ích mà nó cung cấp qua các giải pháp thay thế? Chi phí hiệu quả là một điểm cộng lớn. Nếu tôi phải trả tiền cho một giải pháp kho dữ liệu, tôi sẽ, nhưng tôi muốn tránh nó và lấy lộ trình mã nguồn mở/cộng đồng nếu có thể.
Số tiền thực tế (ngang), trung bình, stddevs - ngay cả khi được lọc - không khai thác dữ liệu. Họ chỉ đơn giản là ** nhà phê bình **. –
Khai thác dữ liệu là khám phá thông tin mới từ một tập hợp dữ liệu. Thống kê là một công cụ để hỗ trợ trong quá trình này. Tôi không nghĩ rằng sự nhấn mạnh như vậy về thuật ngữ là có lợi, và nếu chúng ta tranh luận về nó, sẽ không thực hiện bất cứ điều gì.Nó giống như tôi nói rằng tôi không đồng ý với bài viết của bạn bởi vì bạn đã đánh sai số liệu thống kê là "nhà phê bình" - đó là sự nhấn mạnh không cần thiết về kỹ thuật. Mục tiêu của tôi là sử dụng cơ sở dữ liệu này để khám phá thông tin mới. Ngoài ra, các giải pháp kho dữ liệu được xây dựng với sự khai thác dữ liệu trong đầu. Do đó, khái niệm khai phá dữ liệu được áp dụng ở đây. – user396404
Tuy nhiên, tôi đồng ý với bạn rằng "cơ sở dữ liệu" có lẽ là một thẻ tốt hơn cho bài đăng này. – user396404