Chúng tôi đang làm việc trên một kho dữ liệu cho một ngân hàng và đã theo dõi mô hình Kimball chuẩn của các bảng dàn dựng, một lược đồ sao và một ETL để kéo dữ liệu qua quy trình.Cấu trúc trong khu vực dàn dựng kho dữ liệu
Kimball nói về việc sử dụng khu vực dàn dựng để nhập, làm sạch, xử lý và mọi thứ cho đến khi bạn sẵn sàng đưa dữ liệu vào lược đồ hình sao. Trong thực tế, điều này thường có nghĩa là tải lên dữ liệu từ các nguồn vào một tập hợp các bảng có ít hoặc không có sửa đổi, tiếp theo là lấy dữ liệu tùy chọn thông qua các bảng trung gian cho đến khi nó sẵn sàng đi vào lược đồ sao. Đó là rất nhiều công việc cho một thực thể duy nhất, không có trách nhiệm duy nhất ở đây.
hệ thống
trước tôi đã làm việc trên đã thực hiện một sự phân biệt giữa các bộ khác nhau của bảng, trong phạm vi của việc có:
- bảng Tải lên: hệ thống dữ liệu nguồn nguyên, chưa sửa đổi
- Bàn dàn xếp: xử lý trung gian, đã nhập và được làm sạch
- Bảng kho
Bạn có thể dính vào những trong lược đồ riêng biệt và sau đó áp dụng các chính sách khác nhau để lưu trữ/sao lưu/an ninh vv Một trong những kẻ khác đã làm việc trên một nhà kho, nơi có một StagingInput và StagingOutput, câu chuyện tương tự . Nhóm nghiên cứu như một toàn thể có rất nhiều kinh nghiệm, cả hai datawarehouse và nếu không.
Tuy nhiên, mặc dù tất cả điều này, tìm kiếm thông qua Kimball và web dường như hoàn toàn không có gì bằng văn bản về việc cung cấp bất kỳ loại cấu trúc nào cho cơ sở dữ liệu dàn dựng. Người ta sẽ được tha thứ vì tin rằng ông Kimball sẽ khiến tất cả chúng tôi làm việc với dàn dựng như một hồ sơ dữ liệu không có cấu trúc sâu lớn.
Trong khi tất nhiên nó là khá rõ ràng làm thế nào để đi về nó nếu chúng ta muốn thêm một số cấu trúc nhiều hơn để các khu vực dàn dựng, nó có vẻ rất kỳ lạ mà dường như không có gì được viết về nó.
Vì vậy, những người khác đang làm gì ở đó? Được dàn dựng chỉ là mớ hỗn độn không có cấu trúc lớn này hay dân gian có một số thiết kế thú vị trên đó?
Tò mò, một khu vực mà dường như không ai quan tâm đến, mà là một khu vực ảnh hưởng đến mọi dự án BI ở mọi quy mô. Tôi đoán rằng sự khác biệt về Tải lên và Dàn dựng sẽ cho chúng ta một số cấu trúc ít nhất. – NeedHack