2009-04-02 26 views
5

Bất kỳ ai chơi xung quanh MapReduce trên AWS chưa? Có suy nghĩ gì không? Việc triển khai như thế nào?MapReduce trên AWS

+3

Làm thế nào đến khi tôi đặt câu hỏi như thế này, chúng sẽ chết trong 4 giây với 'không phải là câu hỏi thực sự 'buls ** nó – Letterman

Trả lời

15

Thật dễ dàng để bắt đầu.

Dưới đây là một câu hỏi thường gặp: http://aws.amazon.com/elasticmapreduce/faqs/

Và đây là Hướng dẫn Bắt đầu: http://docs.amazonwebservices.com/ElasticMapReduce/latest/GettingStartedGuide/

Nếu bạn có một tài khoản EC2 đã có, bạn có thể bật MapReduce và có một ứng dụng mẫu và chạy trong vòng chưa đầy 10 phút sử dụng Bảng điều khiển quản lý AWS.

tôi đã làm Lời ứng dụng mẫu Đếm đóng gói sẵn, mà trả về một số của mỗi từ chứa trong khoảng 20 MB bộ văn bản. Bạn có thể cung cấp lên đến 20 trường hợp để chạy đồng thời, mặc dù tôi chỉ sử dụng 2 trường hợp và công việc hoàn thành trong khoảng 3 phút.

Công việc trở về 300 KB danh sách theo thứ tự abc của lời nói và mức độ thường xuyên mỗi từ xuất hiện trong corpus mẫu.

Tôi thực sự thích rằng công việc MapReduce có thể được viết trong sự lựa chọn của tôi về Perl, Python, Ruby, PHP, C++, R, hoặc Java. Quá trình này không gây đau đớn và đơn giản, và giao diện cho phản hồi tốt về trạng thái của các cá thể của bạn và luồng công việc. Hãy lưu ý rằng, vì AWS tính phí trọn một giờ khi một cá thể được tạo và vì các phiên bản MapReduce được tự động chấm dứt ở cuối luồng công việc, chi phí của nhiều luồng công việc chạy nhanh có thể tăng lên nhanh chóng . Ví dụ: nếu tôi tạo luồng công việc sử dụng 20 phiên bản và trả về kết quả sau 15 phút, sau đó chạy lại chuỗi công việc 3 lần nữa, tôi sẽ bị tính phí trong 80 giờ của máy mặc dù tôi chỉ có 20 trường hợp chạy trong 1 giờ.

+0

Kinh nghiệm của chúng tôi là tốt, cộng với thời gian khởi động chậm. Nó chỉ có giá trị nếu bạn có công việc có khả năng chạy trong vài giờ. –

+0

Cụm không nhất thiết tự động chấm dứt, bạn có thể để nó chạy. –

2

Nó rất thuận tiện vì bạn không cần phải quản lý cụm của riêng bạn. Bạn chỉ phải trả cho mỗi lần sử dụng vì vậy tôi nghĩ rằng đó là một ý tưởng tốt nếu bạn có một công việc mà cần phải chạy một lần trong một thời gian. Chúng tôi đang chạy Amazon MapReduce chỉ một lần một tháng vì vậy, để sử dụng của chúng tôi, nó là giá trị nó.

Tuy nhiên, như xa như tôi có thể nói, một nhược điểm của Amazon MapReduce là bạn không thể biết được hệ điều hành đang chạy, hoặc thậm chí phiên bản của nó. Điều này khiến tôi gặp sự cố khi chạy mã C++ được biên dịch bằng g ++ 4.44, một số hình ảnh OS không hỗ trợ thư viện cUrl, v.v.

Nếu bạn không cần bất kỳ thư viện đặc biệt nào cho trường hợp sử dụng của mình, tôi sẽ nói .

1

Câu trả lời hay của MB.

Để rõ ràng: bạn có thể chạy cụm Hadoop theo hai cách: 1) Chạy trên các phiên bản EC2 của Amazon. Điều này có nghĩa là bạn phải cài đặt nó, cấu hình nó, chấm dứt nó, vv 2) Chạy nó bằng cách sử dụng Elastic MapReduce, hoặc EMR: đây là một cách tự động để chạy một cụm Hadoop trên Amazon Web Services. Bạn trả thêm một chút chi phí cơ bản cho EC2, nhưng bạn không cần phải quản lý bất cứ điều gì: chỉ cần tải lên dữ liệu của bạn, sau đó là thuật toán của bạn, sau đó crunch. EMR sẽ tự động tắt các cá thể sau khi công việc của bạn kết thúc.

nhất,

Simone

3

Bạn cũng có khả năng để chạy MapReduce (Hadoop) trên AWS với StarCluster.Công cụ này cấu hình cụm cho bạn và có lợi thế là bạn không phải trả thêm Amazon Elastic MapReduce Price (nếu bạn muốn giảm chi phí) và bạn có thể tạo hình ảnh (AMI) của riêng mình bằng các công cụ của bạn (điều này có thể được tốt nếu cài đặt các công cụ không thể được thực hiện bởi một kịch bản bootstrap).

1

EMR là cách tốt nhất để sử dụng các tài nguyên có sẵn với chi phí được thêm rất ít so với EC2 tuy nhiên bạn sẽ tiết kiệm thời gian và dễ dàng như thế nào. Hầu hết việc triển khai MR trên Đám mây đang sử dụng mô hình này, tức là Apache Hadoop trên Windows Azure, Dữ liệu Vữa, v.v. Tôi đã làm việc trên cả Amazon EMR và Apache Hadoop trên Windows Azure và thấy không thể tin được khi sử dụng.

0

tôi đang làm việc với AWS EMR. Nó khá gọn gàng. Tôi có nghĩa là một khi bạn bắt đầu lên cụm của họ và đăng nhập vào nút Master của họ. Bạn có thể chơi xung quanh với cấu trúc thư mục hadoop. Và làm những điều khá thú vị .. Nếu bạn có một tài khoản edu don; t quên để áp dụng cho một tài trợ nghiên cứu. Họ tặng 100 tín dụng miễn phí để sử dụng AWS của họ.

0

AWS EMR là một lựa chọn tốt khi bạn sử dụng dung lượng lưu trữ S3 cho dữ liệu của mình. Nó cung cấp khả năng tích hợp hộp với S3 để tải tệp và đăng các tệp đã xử lý. Trong trường hợp sử dụng mà bạn cần phải chạy công việc theo yêu cầu, bạn được lưu từ chi phí chạy toàn bộ cụm tất cả các thời gian, điều này thực sự giúp bạn tiết kiệm trên giờ dụ. Tận dụng lợi thế trên, người ta có thể sử dụng AWS lambda để sinh ra các cụm hướng sự kiện.

Các vấn đề liên quan