Tôi đã viết một số công cụ rất cơ bản để nhóm, xoay vòng, liên kết và tổng hợp các tập dữ liệu có nguồn gốc từ các nguồn không phải DB (ví dụ: CSV, hệ thống OLTP). Phương pháp "nhóm theo" nằm ở cốt lõi của hầu hết các phương pháp này."Nhóm theo" và các thuật toán cơ sở dữ liệu khác?
Tuy nhiên tôi chắc chắn rất nhiều công việc đã được thực hiện trong việc đưa ra các thuật toán hiệu quả để nhóm dữ liệu ... và tôi chắc chắn rằng tôi không sử dụng chúng. Và Google-fu của tôi đã hoàn toàn thất bại trong việc biến bất cứ thứ gì.
Có bất kỳ nguồn hoặc sách trực tuyến tốt nào mô tả các phương pháp tốt hơn để tạo dữ liệu được nhóm không?
Hoặc tôi có nên bắt đầu xem xét nguồn MySQL hoặc một cái gì đó tương tự không?
Tôi đặt cược bạn đã hoàn thành tối ưu hóa tại thời điểm này, nhưng Wes McKinney đã viết một chút về cách ông tiếp cận nhóm theo vấn đề trong thư viện Pandas của mình: http://wesmckinney.com/blog/mastering-high -performance-data-algorithm-i-group-by/ – DGrady