Tôi đọc Hadoop in Action và thấy rằng trong Java
sử dụng MultipleOutputFormat
và MultipleOutputs
các lớp chúng tôi có thể giảm dữ liệu thành nhiều tệp đạt được điều tương tự bằng cách sử dụng Python streaming
.Python Streaming: làm thế nào để giảm đến nhiều đầu ra? (Có thể với Java mặc dù)
ví dụ:
/out1/part-0000
mapper -> reducer
\ out2/part-0000
Nếu có ai biết, nghe, thực hiện điều tương tự, xin vui lòng cho tôi biết
Tôi làm cách nào để sử dụng? chỉ cần tải về các jar, cung cấp cho "-libjar feathers.jar" mà không ảnh hưởng đến bất kỳ bản đồ/giảm công việc tôi đã viết cho đến bây giờ? bất kỳ mã thử nghiệm mẫu nào mà tôi có thể tham khảo để chạy bằng cách này sẽ hữu ích – daydreamer