Tôi đã tìm kiếm các ngày để tìm cách sử dụng dữ liệu bị giảm để lập bản đồ tiếp theo trong hadoop. Tôi đã có các đối tượng của lớp A
làm dữ liệu đầu vào và các đối tượng của lớp B
làm dữ liệu đầu ra. Vấn đề là, trong khi ánh xạ không chỉ B
s được tạo ra nhưng mới A
s là tốt.Chia dữ liệu bị cắt thành đầu ra và đầu vào mới trong Hadoop
Dưới đây là những gì tôi muốn đạt được:
1.1 input: a list of As
1.2 map result: for each A a list of new As and a list of Bs is generated
1.3 reduce: filtered Bs are saved as output, filtered As are added to the map jobs
2.1 input: a list of As produced by the first map/reduce
2.2 map result: for each A a list of new As and a list of Bs is generated
2.3 ...
3.1 ...
Bạn sẽ nhận được ý tưởng cơ bản.
Tôi đã đọc rất nhiều về chuỗi nhưng tôi không chắc chắn cách kết hợp ChainReducer và ChainMapper hoặc thậm chí nếu đây là phương pháp phù hợp.
Vì vậy, đây là câu hỏi của tôi: Làm cách nào tôi có thể chia dữ liệu được ánh xạ trong khi giảm để lưu một phần làm đầu ra và phần khác làm dữ liệu đầu vào mới.
Hãy lưu ý rằng các ví dụ mã này dành cho Hadoop 0. * nhưng không phải 1.0 .4. Khi tôi làm việc với 1.0.4, các giao diện hơi thay đổi. Nhưng ý tưởng cơ bản là những gì tôi đang tìm kiếm. Cảm ơn bạn! – Mennny
vâng, đó là sự thật. cái này là cho 0,20 – Amar