2012-07-26 27 views
8

Sự khác biệt thực sự giữa việc chạy các script PIG cục bộ và trên mapreduce là gì? Tôi hiểu chế độ Mapreduce là khi bạn chạy nó trên một cụm có cài đặt hdfs. Điều này có nghĩa là chế độ cục bộ không cần HDFS và do đó, ngay cả việc tạo bản đồ các công việc không được kích hoạt? Sự khác biệt và khi nào bạn khác?Sự khác biệt giữa chế độ cục bộ và bản đồ PIG

Trả lời

8

Chế độ cục bộ sẽ xây dựng công việc Mapreduce được mô phỏng chạy tắt của tệp cục bộ trên đĩa. Về lý thuyết tương đương với MapReduce, nhưng nó không phải là một công việc mr "thực". Bạn không nên nói sự khác biệt từ góc nhìn của người dùng.

Chế độ cục bộ rất tuyệt để phát triển.

+1

Một điều cần lưu ý là không có hỗ trợ cho bộ đếm ở chế độ cục bộ, nhưng đó là do Hadoop Map/Reduce thay vì Pig. – cyang

6

Chế độ cục bộ: Tất cả tập lệnh được chạy trên một máy tính duy nhất mà không yêu cầu Hadoop MapReduce và HDFS. Điều này có thể hữu ích cho việc phát triển và thử nghiệm logic Lợn. Nếu bạn đang sử dụng một bộ dữ liệu nhỏ cho nhà phát triển hoặc kiểm tra mã của mình thì chế độ cục bộ có thể nhanh hơn so với cơ sở hạ tầng MapReduce.

Chế độ cục bộ không yêu cầu Hadoop. Khi bạn chạy trong chế độ cục bộ, chương trình Pig chạy trong ngữ cảnh của một máy ảo Java cục bộ và truy cập dữ liệu là thông qua hệ thống tệp cục bộ của một máy duy nhất. Chế độ cục bộ thực sự là một mô phỏng cục bộ của MapReduce trong lớp LocalJobRunner của Hadoop.

Chế độ MapReduce (còn được gọi là chế độ Hadoop): Pig được thực thi trên cụm Hadoop. Trong trường hợp này, Script Pig được chuyển đổi thành một loạt các công việc MapReduce sau đó được chạy trên cụm Hadoop. LOcal and Distributed mode of pig

Nếu bạn có terabyte dữ liệu mà bạn muốn thực hiện thao tác và bạn muốn phát triển tương tác một chương trình, bạn sẽ sớm tìm thấy mọi thứ chậm lại đáng kể và bạn có thể bắt đầu tăng dung lượng của mình. Chế độ cục bộ cho phép bạn làm việc với một tập hợp con dữ liệu của bạn theo cách tương tác hơn để bạn có thể tìm ra logic (và tìm ra các lỗi) của chương trình Pig của bạn.

Sau khi bạn thiết lập mọi thứ tùy thích và thao tác của bạn đang chạy trơn tru, bạn có thể chạy tập lệnh với tập dữ liệu đầy đủ bằng chế độ MapReduce.

Các vấn đề liên quan