Một trong những ví dụ chính được sử dụng để chứng minh sức mạnh của MapReduce là Terasort benchmark. Tôi gặp sự cố khi hiểu các khái niệm cơ bản về thuật toán sắp xếp được sử dụng trong môi trường MapReduce.Thuật toán sắp xếp MapReduce hoạt động như thế nào?
Để tôi phân loại đơn giản liên quan đến việc xác định vị trí tương đối của một phần tử trong mối quan hệ với tất cả các phần tử khác. Vì vậy, phân loại liên quan đến việc so sánh "mọi thứ" với "mọi thứ". Thuật toán sắp xếp trung bình của bạn (nhanh, bong bóng, ...) đơn giản thực hiện điều này một cách thông minh.
Trong tâm trí của tôi chia tập dữ liệu thành nhiều phần có nghĩa là bạn có thể sắp xếp một phần duy nhất và sau đó bạn vẫn phải tích hợp các phần này vào bộ dữ liệu được phân loại đầy đủ. Với bộ dữ liệu terabyte phân phối trên hàng nghìn hệ thống, tôi mong đợi đây là một nhiệm vụ rất lớn.
Vậy điều này thực sự được thực hiện như thế nào? Thuật toán sắp xếp MapReduce này hoạt động như thế nào?
Cảm ơn bạn đã giúp tôi hiểu.
Tôi hiểu (hầu hết) các khái niệm về MapReduce như được mô tả trong các tài liệu được đề cập. Tôi đang cố gắng hiểu thuật toán sắp xếp. –