Muốn xác nhận sau đây. Xin vui lòng xác minh nếu điều này là chính xác: 1. Theo hiểu biết của tôi khi chúng tôi sao chép tệp vào HDFS, đó là điểm khi tệp (giả định kích thước của nó> 64MB = kích thước khối HDFS) được chia thành nhiều phần và mỗi đoạn được lưu trữ trên các nút dữ liệu khác nhau.Giới thiệu về việc chia nhỏ tệp Hadoop/HDFS
Nội dung tệp đã được chia thành các đoạn khi tệp được sao chép vào HDFS và việc phân tách tệp đó không xảy ra tại thời điểm chạy công việc bản đồ. Nhiệm vụ bản đồ chỉ được lên lịch theo cách mà chúng hoạt động trên từng đoạn tối đa. kích thước 64 MB với vị trí dữ liệu (tức là tác vụ bản đồ chạy trên nút đó chứa dữ liệu/đoạn)
Chia nhỏ tệp cũng xảy ra nếu tệp được nén (gzipped) nhưng MR đảm bảo rằng mỗi tệp được xử lý bởi chỉ một trình ánh xạ , tức là MR sẽ thu thập tất cả các phần của tệp gzip nằm ở các nút dữ liệu khác và cung cấp tất cả chúng cho người lập bản đồ duy nhất.
Điều tương tự như trên sẽ xảy ra nếu chúng tôi xác định isSplitable() để trả về false, nghĩa là tất cả các phần của tệp sẽ được xử lý bởi một người lập bản đồ đang chạy trên một máy. MR sẽ đọc tất cả các phần của một tệp từ các nút dữ liệu khác nhau và cung cấp chúng cho một người lập bản đồ duy nhất.
Tiêu đề mô tả hơn sẽ là một cải tiến được chào đón cho câu hỏi của bạn. –