2010-03-23 10 views

Trả lời

9

Hadoop bao gồm một số thành phần là từng tiểu dự án của dự án Apache Hadoop. Hai trong số những cái chính là Hadoop Distributed File System (HDFS)MapReduce framework.

Ý tưởng là bạn có thể nối mạng với nhau một số máy tính có sẵn để tạo cụm. HDFS chạy trên cụm. Khi bạn thêm dữ liệu vào cụm, nó được chia thành các khối lớn/khối (nói chung là 64MB) và được phân phối xung quanh cụm. HDFS cho phép sao chép dữ liệu để cho phép khôi phục từ lỗi phần cứng. Nó gần như mong đợi lỗi phần cứng vì nó có nghĩa là để làm việc với phần cứng tiêu chuẩn. HDFS dựa trên giấy của Google về hệ thống tệp GFS phân tán của họ.

Khuôn khổ Hadoop MapReduce chạy trên dữ liệu được lưu trữ trên HDFS. Mục tiêu của MapReduce 'jobs' nhằm cung cấp khả năng xử lý dựa trên khóa/giá trị theo cách rất hợp lý. Vì dữ liệu được phân phối trên cụm, một công việc MapReduce có thể được chia nhỏ để chạy nhiều tiến trình song song trên dữ liệu được lưu trữ trên cụm. Các phần Bản đồ của MapReduce chỉ chạy trên dữ liệu mà chúng có thể thấy, tức là các khối dữ liệu trên máy cụ thể đang chạy trên đó. The Reduce tập hợp đầu ra từ Bản đồ.

Kết quả là một hệ thống cung cấp khả năng xử lý hàng loạt song song cao. Hệ thống này hoạt động tốt vì bạn chỉ cần thêm nhiều phần cứng hơn để tăng khả năng lưu trữ hoặc giảm thời gian mà công việc MapReduce cần để chạy.

Một số liên kết:

Các vấn đề liên quan