Tôi đang cố gắng tìm ra chính xác những gì các kho dữ liệu mới lạ như bigtable, hbase và cassandra thực sự là.lưu trữ dữ liệu chuỗi thời gian được đặt hàng lớn trong các dẫn xuất bigtable
Tôi làm việc với số lượng lớn dữ liệu thị trường chứng khoán, hàng tỷ hàng dữ liệu giá/trích dẫn có thể thêm tối đa 100 gigabyte mỗi ngày (mặc dù các tệp văn bản này thường được nén ít nhất theo thứ tự độ lớn). Dữ liệu này về cơ bản là một số ít, hai hoặc ba chuỗi ngắn và dấu thời gian (thường là mili giây). Nếu tôi phải chọn một mã định danh duy nhất cho mỗi hàng, tôi sẽ phải chọn toàn bộ hàng (vì một trao đổi có thể tạo ra nhiều giá trị cho cùng một ký hiệu trong cùng một mili giây).
Tôi cho rằng cách đơn giản nhất để ánh xạ dữ liệu này thành bảng lớn (tôi bao gồm các dẫn xuất của nó) là tên và ngày biểu tượng (có thể trả về chuỗi thời gian rất lớn, hơn một triệu điểm dữ liệu chưa từng thấy) . Từ việc đọc mô tả của họ, có vẻ như nhiều khóa có thể được sử dụng với các hệ thống này. Tôi cũng giả định rằng số thập phân không phải là ứng viên tốt cho khóa.
Một số hệ thống này (ví dụ: Cassandra) tuyên bố có thể thực hiện các truy vấn phạm vi. Liệu tôi có thể truy vấn hiệu quả, nói rằng, tất cả các giá trị cho MSFT, trong một ngày nhất định, từ 11:00 sáng đến 1:30 chiều?
Điều gì sẽ xảy ra nếu tôi muốn tìm kiếm trên TẤT CẢ biểu tượng cho một ngày nhất định và yêu cầu tất cả biểu tượng có giá từ $ 10 đến $ 10,25 (vì vậy tôi đang tìm kiếm giá trị và muốn trả về khóa)? Điều gì sẽ xảy ra nếu tôi muốn nhận được chuỗi hai lần, trừ một chuỗi từ chuỗi kia và trả về chuỗi hai lần và kết quả của chúng, tôi có phải thực hiện logic của mình trong chương trình riêng của tôi không? Không.
Đọc các giấy tờ có liên quan dường như cho thấy rằng các hệ thống này không phù hợp cho các hệ thống chuỗi thời gian lớn. Tuy nhiên, nếu các hệ thống như bản đồ google dựa trên chúng, tôi nghĩ chuỗi thời gian cũng hoạt động tốt. Ví dụ, suy nghĩ về thời gian như trục x, giá như trục y và ký hiệu như các vị trí được đặt tên - tất cả đột nhiên có vẻ như bigtable phải là cửa hàng lý tưởng cho chuỗi thời gian (nếu toàn bộ trái đất có thể được lưu trữ, truy lục , thu nhỏ và chú thích, dữ liệu thị trường chứng khoán sẽ không đáng kể).
Một số chuyên gia có thể chỉ cho tôi đúng hướng hoặc làm sáng tỏ mọi hiểu lầm.
Cảm ơn
khi bạn nói "bạn có thể yêu cầu Cassandra tìm tất cả các khóa bắt đầu bằng MSFT-now và kết thúc bằng MSFT-now + 1hour" - Bạn có nghĩa là RowSclice Query không ?? Tôi có nghĩa là nếu tôi hỏi cassandra cho tôi tất cả các phím hàng giữa t1 và t2, t là một dấu thời gian, là nó hiệu quả. Tôi đã nghe rowSlices không hiệu quả như lát cột trong Cassandra? – Peter