Tôi muốn biết tại sao bộ so sánh nhóm được sử dụng trong loại thứ hai của mapreduce.Việc sử dụng bộ so sánh nhóm trong bản đồ hadoop là gì?
Theo hướng dẫn dụ dứt khoát của trung học sắp xếp
Chúng tôi muốn thứ tự sắp xếp cho các phím để được theo năm (tăng dần) và sau đó bởi nhiệt độ (giảm dần):
1900 35°C
1900 34°C
1900 34°C
...
1901 36°C
1901 35°C
Bằng cách đặt phân vùng để phân vùng bởi phần năm của khóa, chúng tôi có thể đảm bảo rằng hồ sơ cho cùng năm đó đi cùng một bộ giảm tốc. Tuy nhiên, điều này vẫn chưa đủ để đạt được mục tiêu của chúng tôi. Trình phân vùng chỉ đảm bảo rằng một bộ giảm tốc nhận được tất cả các bản ghi cho một năm; nó không thay đổi thực tế là bộ giảm tốc nhóm theo khóa trong phân vùng.
Vì chúng tôi đã viết trình phân vùng riêng của chúng tôi để quản lý các khóa đầu ra của bản đồ sẽ giảm thiểu cụ thể, vậy tại sao chúng ta nên nhóm nó lại.
Cảm ơn trước
giải thích tốt đẹp. –