Tôi bắt đầu chơi xung quanh với hadoop (nhưng không có quyền truy cập vào một cụm nhưng vì vậy chỉ cần chơi xung quanh trong độc lập). Câu hỏi của tôi là, một khi nó trong một thiết lập cụm, làm thế nào là nhiệm vụ phân phối và có thể các cơ sở mã được chuyển giao cho các nút mới? Lý tưởng nhất, tôi muốn chạy các công việc hàng loạt lớn và nếu tôi cần thêm dung lượng cho các cụm mới nhưng tôi không chắc liệu tôi có phải sao chép cùng một mã đang chạy cục bộ hay làm một cái gì đó đặc biệt hay không. trong khi công việc hàng loạt đang chạy, tôi có thể thêm dung lượng. Tôi nghĩ rằng tôi có thể lưu trữ codebase của tôi trên HDFS và có nó kéo tại địa phương để chạy mỗi khi tôi cần nó nhưng điều đó vẫn có nghĩa là tôi cần một số loại kịch bản ban đầu trên máy chủ và cần phải chạy nó bằng tay đầu tiên.Hadoop có thể phân phối nhiệm vụ và cơ sở mã không?
Bất kỳ đề xuất hoặc lời khuyên nào về điều này có thể là tuyệt vời!
Cảm ơn bạn.
Cảm ơn bạn, câu trả lời tuyệt vời. Nó có ý nghĩa với java nhưng điều này cũng đúng với việc sử dụng python streaming? – Lostsoul
Từ http://hadoop.apache.org/common/docs/r0.15.2/streaming.html#Package+Files+With+Job+Submissions: "Bạn có thể chỉ định bất kỳ tệp thực thi nào làm trình ánh xạ và/hoặc trình giảm tốc. các tệp thực thi không cần phải tồn tại trước trên các máy trong cụm, tuy nhiên, nếu chúng không, bạn sẽ cần sử dụng tùy chọn "-file" để yêu cầu khuôn khổ đóng gói các tệp thực thi của bạn như một phần của quá trình gửi công việc. " Tất cả mọi thứ ở trên liên quan đến việc thêm tasktrackers cũng đúng cho việc phát trực tuyến. –