2013-03-02 34 views
16

Tôi đang cố gắng đánh giá sự khác biệt giữa hai tùy chọn này. Dưới đây là một số ưu điểm và nhược điểm mà tôi có thể nghĩ đến:Hadoop trên EC2 và Bản đồ Đàn hồi Giảm

Bản đồ đàn hồi Giảm => Hỗ trợ tốt hơn từ Amazon, Không cần quản trị cụm, Nhiều hơn (?) EC2 + Hadoop => Kiểm soát nhiều cấu hình của bạn hơn, rẻ hơn (?)

Tôi tự hỏi liệu có ai có thể đã đánh giá hiệu suất của EC2 + Hadoop để xem EMR không? Có bất kỳ sự khác biệt đáng kể về chi phí cho việc triển khai cụm lớn không? Sự khác biệt nào tồn tại?

+1

Giá khôn ngoan nó sẽ bổ sung khoảng 25% trên đầu trang của EC2: http://aws.amazon.com/elasticmapreduce/pricing/ – Guy

Trả lời

6

Vâng, quản trị/giám sát/duy trì cụm không phải là một nhiệm vụ nhỏ trong chính nó. Sử dụng EMR thực sự bạn có thể nhận được các máy được định cấu hình và hoạt động với mã khởi động tùy chỉnh của bạn một cách nhanh chóng. Ngoài việc làm tất cả những điều này EMR cũng cung cấp rất nhiều công cụ/tùy chọn/cơ sở khác. Ở đây bạn không phải lo lắng về việc chấm dứt một cụm sau khi công việc được thực hiện, bạn chắc chắn có thể thực hiện một cách cho chính mình trong thiết lập EC2 + Hadoop, nhưng EMR thực hiện điều này cho bạn một cách gọn gàng.

Bạn cũng có cơ sở với kích thước resize the cluster ngay cả khi công việc của bạn đang chạy!

Pig và Hive có sẵn với EMR cũng chứa các bản vá giúp dễ dàng làm việc với các tệp trong S3.

Ngay cả here trong câu trả lời này, bạn có thể thấy rằng EMR đã được cấp cao hơn.

6

Chúng tôi sử dụng cả hai phương pháp tiếp cận (EMR và EC2) tại nơi làm việc của mình.

Ưu điểm của EMR mà Amar đề cập là ít nhiều đúng: vì vậy nếu bạn muốn đơn giản, đó có thể là cách để đi.

Nhưng có những cân nhắc khác:

  • phiên bản của EMR là xa phía sau đầu apache. đó là khoảng 0,20,205 trong khi đầu là 2.X, mà chủ yếu là 3 phiên bản lên (1.0, 1.1, 2.0 ..)

hadoop @ domU-12-31-39-07-B9-97 : ~ $ ll hadoop * .jar lrwxrwxrwx 1 hadoop hadoop 73 Feb 5 12:00 hadoop-examples-0.20.205.jar -> /home/hadoop/.versions/0.20.205/share/hadoop/hadoop-examples- 0.20.205.jar lrwxrwxrwx 1 hadoop hadoop 69 Feb 5 12:00 hadoop-test-0.20.205.jar -> /home/hadoop/.versions/0.20.205/share/hadoop/hadoop-test-0.20.205 .jar lrwxrwxrwx 1 hadoop hadoop 69 Feb 5 12:00 hadoop-core-0.20.205.jar -> /home/hadoop/.versions/0.20.205/share/hadoop/hadoop-core-0.20.205.jar lrwxrwxrwx 1 hadoop hadoop 70 Feb 5 12:00 hadoop-tools-0.20.205.jar -> /home/hadoop/.versions/0.20.205/share/hadoop/ hadoop-tools-0.20.205.jar lrwxrwxrwx 1 hadoop hadoop 68 Feb 5 12:00 hadoop-ant-0.20.205.jar -> /home/hadoop/.versions/0.20.205/share/hadoop/hadoop-ant -0.20.205.jar

  • Như một hệ quả trực tiếp tôi phải tái mã/tái cấu trúc bản đồ của tôi/giảm chương trình do thiếu module contrib trong phiên bản cũ chạy trên EMR

  • Bạn không có nhiều cơ hội sử dụng các thuật toán không Map/Reduce như thể bạn đang sử dụng phiên bản cập nhật của M/R.

  • Tính linh hoạt để trộn và khớp các phiên bản của hệ sinh thái hadoop.

+0

Amazon Elastic MapReduce hỗ trợ Hadoop 0.20.205 và Hadoop 1.0.3 với Các bản vá tùy chỉnh (http://aws.amazon.com/elasticmapreduce/faqs/#dev-12) Ngoài ra, thay vì sử dụng một trong các phiên bản Apache của Hadoop bạn có thể sử dụng MapR, điều đó cũng được EMR hỗ trợ. (http://aws.amazon.com/elasticmapreduce/mapr/) – Amar

+0

Tôi tin rằng câu trả lời này đã lỗi thời và những cân nhắc không còn đúng ... – chomp

Các vấn đề liên quan