Shuffle:
MapReduce làm cho sự đảm bảo rằng các đầu vào cho mỗi giảm được sắp xếp theo chủ chốt. Quá trình mà hệ thống thực hiện sắp xếp và transfers map outputs to the reducers as inputs
được gọi là shuffle.
Sắp xếp:
Sorting xảy ra trong giai đoạn khác nhau của chương trình MapReduce, Vì vậy, có thể tồn tại trong Bản đồ và Giảm giai đoạn.
hãy có một cái nhìn tại sơ đồ này
Thêm mô tả hơn để hình ảnh trên trong Bản đồ và Giảm giai đoạn.
Các bản đồ Side:
Khi chức năng bản đồ bắt đầu sản xuất đầu ra, nó không phải là chỉ đơn giản là ghi vào đĩa. Trước khi đầu ra Bản đồ ghi vào đĩa, luồng đầu tiên là divides the data into partitions corresponding to the reducers
mà cuối cùng chúng sẽ được gửi đến. Trong mỗi phân vùng, background thread performs an in-memory sort by key
.
Giảm mức Side:
Khi tất cả các kết quả đầu ra bản đồ đã được sao chép, giảm việc di chuyển vào giai đoạn loại (mà đúng nên được gọi là giai đoạn hợp nhất, như việc phân loại được thực hiện trên bản đồ bên), kết hợp các kết quả đầu ra bản đồ, duy trì thứ tự sắp xếp của chúng. Điều này sẽ được thực hiện trong vòng.
Nguồn: Hướng dẫn xác định Hadoop.
đúng, quay trở lại câu hỏi ban đầu của tôi, ngẫu nhiên và sắp xếp cả hai xảy ra trên người vẽ bản đồ và bộ giảm tốc phải không? – red
có !! shuffle và sắp xếp xảy ra trong cả bản đồ và bộ giảm tốc trong các tình huống khác nhau. – mrsrinivas