Tôi đã cố gắng sử dụng Hadoop để gửi số lượng dòng N tới một ánh xạ đơn. Tôi không yêu cầu các dòng được phân chia rồi.Nhiều dòng văn bản vào một bản đồ đơn
Tôi đã cố gắng sử dụng NLineInputFormat, tuy nhiên sẽ gửi N dòng văn bản từ dữ liệu đến từng trình ánh xạ một dòng tại một thời điểm [từ bỏ sau dòng thứ N].
Tôi đã cố gắng để thiết lập các tùy chọn và nó chỉ mất N dòng đầu vào gửi nó ở 1 dòng tại một thời điểm cho mỗi bản đồ:
job.setInt("mapred.line.input.format.linespermap", 10);
Tôi đã tìm thấy một danh sách gửi thư giới thiệu tôi để ghi đè LineRecordReader :: tiếp theo, tuy nhiên điều đó không đơn giản như vậy, vì các thành viên dữ liệu nội bộ đều riêng tư.
Tôi vừa kiểm tra nguồn cho NLineInputFormat và mã cứng LineReader, vì vậy việc ghi đè sẽ không giúp ích.
Ngoài ra, btw Tôi đang sử dụng Hadoop 0,18 để tương thích với MapReduce của Amazon EC2.
Tại sao các bạn cố gắng để làm điều này? Do nhiều dòng tạo thành một kỷ lục duy nhất trong một số ý nghĩa? –
Tôi thực sự cần N số dòng ngẫu nhiên [như một tập hợp], tuy nhiên tôi có thể sống với hậu quả. Tôi cần nó để gửi nó đến bộ giảm tốc bên phải. – monksy
Để trả lời câu hỏi của bạn, đúng vậy. – monksy