2016-08-14 14 views
5

Sự hiểu biết của tôi có đúng là công việc theo dõi khởi chạy nhiệm vụ (mapper/reducer) trên datanode nơi inputsplit được lưu trữ và chạy tác vụ trên phần dữ liệu và bản đồ lưu trữ đó là đầu ra trung gian trong bộ nhớ cục bộ của nó?Người lập bản đồ có lưu trữ các đầu ra trung gian của nó trên RAM của datanode mà nó đang chạy không?

vì vậy câu hỏi của tôi là: khi người lập bản đồ đang chạy trên datanode để lưu trữ dữ liệu trung gian của nó trên RAM của datanode? Và dưới dạng đĩa datanode là một phần của đầu ra hdfs và trung gian không được lưu trữ trên hdfs ..

Trả lời

5

Đầu ra của Mapper (dữ liệu trung gian) được lưu trữ trên hệ thống tệp cục bộ (không phải HDFS) của từng nút dữ liệu bản đồ riêng lẻ . Đây thường là thư mục tạm thời có thể được quản trị viên Hadoop thiết lập trong cấu hình. Khi công việc Mapper hoàn thành hoặc dữ liệu được chuyển đến Reducer, các dữ liệu trung gian này được dọn sạch và không thể truy cập được nữa.

2

Tác vụ Bản đồ ban đầu lưu đầu ra của nó trong bộ đệm của nút dữ liệu.

Khi bộ đệm được lấp đầy tới 80% dung lượng, bộ đệm bắt đầu ghi trên đĩa của chính nút dữ liệu (không phải HDFS). Vị trí đĩa này có thể được xem/sửa đổi trong mapred-site.xml trong Hadoop 2.0 dưới tên thuộc tính-

mapreduce.cluster.local.dir 
Các vấn đề liên quan