Tôi chỉ cố gắng để xác nhận sự hiểu biết của tôi về sự khác biệt giữa 0 giảm và nhận dạng giảm.hadoop: sự khác biệt giữa 0 giảm và nhận dạng giảm?
- 0 giảm có nghĩa là giảm bước sẽ bị bỏ qua và đầu ra mapper sẽ là thức ra
- nhận dạng giảm có nghĩa là sau đó xáo trộn/sắp xếp vẫn sẽ diễn ra?
Xin chào Dolan, bạn có thể giải thích một chút về việc sử dụng Identity Reducer để kết hợp các kết quả thành ít tệp hơn không? Tôi đã phải đối mặt với các vấn đề tương tự - có rất nhiều tệp nhỏ được tạo bởi các công việc chỉ có bản đồ. Nó sẽ kém hiệu quả hơn so với các công việc chỉ có bản đồ? –
Yitong - có thêm chi phí khi sử dụng Identity Reducers trên tất cả vì đầu ra Mapper cần được băm thành nhóm X và sau đó được gửi tới bộ giảm X (nghĩa là X là số tệp đầu ra mong muốn của bạn), được sắp xếp, và sau đó được lưu vào thư mục đầu ra trên HDFS/S3/etc. Nếu bạn có một tấn dữ liệu, thì bạn sẽ cần phải cẩn thận với chi phí bổ sung này vì nó có thể có ý nghĩa trong một số trường hợp. Thay vào đó, nếu lưu vào HDFS, bạn có thể sử dụng 'hdfs cat' để truyền tất cả đầu ra của tệp vào một vị trí. Tôi không biết liệu S3 có cơ chế đọc luồng tương tự hay không. –