2016-07-27 23 views
6

Với việc phát hành Spark 2.0 hôm nay họ đã gỡ bỏ hỗ trợ cho tung ra một cụm EC2 Spark trên AWS:Làm thế nào để Khởi Spark 2.0 trên EC2

https://spark.apache.org/releases/spark-release-2-0-0.html#removals-behavior-changes-and-deprecations

Spark EC2 kịch bản đã được chuyển đầy đủ đến một kho lưu trữ bên ngoài tổ chức bởi UC Berkeley AMPLab

Trên trang AMPLab GitHub nó bao gồm những hướng dẫn này:

https://github.com/amplab/spark-ec2/tree/branch-2.0#launching-a-cluster

Đi vào thư mục EC2 trong phiên bản của Apache Spark bạn tải về.

Sự cố không có thư mục ec2 trong bản tải xuống 2.0. Bất cứ ai biết làm thế nào tôi có thể khởi động một cụm Spark 2.0 trong EC2?

Xin cảm ơn trước.

+0

Chuyển đến thư mục ec2 có nghĩa là thư mục mà bạn đã tải xuống Apache Spark từ github. – error2007s

+2

@ error2007s vấn đề là không có thư mục ec2 trong Spark 2.0.0. Các hướng dẫn trong liên kết AMPLab UC Berkeley được cung cấp là rất không rõ ràng. – xv70

Trả lời

6

LAST EDIT

Đối với bất cứ ai có vấn đề này, câu trả lời là đơn giản: here.

EDIT 2

tôi nhận ra sau khi chỉnh sửa đầu tiên mà nó là hơi phức tạp hơn, vì vậy đây là một chỉnh sửa mới về cho bất cứ ai có thể tìm thấy nó hữu ích trong tương lai.

Vấn đề là Spark không còn cung cấp thư mục ec2 như một phần của phân phối chính thức nữa. Nếu bạn đang sử dụng để quay lên các cụm độc lập của bạn theo cách này thì đó là một vấn đề.

Các giải pháp rất đơn giản:

  1. Tải thư mục EC2 chính thức được nêu chi tiết trong tài liệu hướng dẫn Spark 2.0.0.
  2. Nếu bạn chỉ cần sao chép thư mục vào Spark 2.0.0 và chạy tệp thực thi spark-ec2 để bắt chước cách hoạt động trong Spark 1. *, bạn sẽ có thể quay nhóm của mình như bình thường. Nhưng khi bạn ssh vào nó, bạn sẽ nhận ra rằng không ai trong số các nhị phân đang có nữa.
  3. Vì vậy, khi bạn xoay cụm (như bình thường với spark-ec2 bạn đã tải xuống ở bước 1), bạn sẽ phải rsync thư mục cục bộ chứa Spark 2.0.0 vào tổng thể của cụm mới được tạo. Khi việc này hoàn tất, bạn có thể spark-submit công việc như bình thường.

Thực sự đơn giản nhưng dường như với tôi, tài liệu Spark có thể rõ ràng về điều này cho tất cả chúng ta.


EDIT: này trên thực tế là điều phải làm. Đối với bất kỳ ai có cùng câu hỏi: hãy tải xuống thư mục ec2 từ AMPLab như Spark đề xuất, đặt thư mục này bên trong thư mục Spark-2.0.0 cục bộ của bạn và các tập lệnh kích hoạt như bình thường. Rõ ràng họ chỉ tách rời thư mục cho mục đích bảo trì, nhưng logic vẫn như cũ. Sẽ rất hay khi có một vài từ về nó trong tài liệu Spark.


tôi thử như sau: nhân bản các thư mục bằng tia EC2 ngành-1,6 từ liên kết AMPLab vào thư mục spark-2.0.0 của tôi, và cố gắng để khởi động một cluster với thông thường ./ec2/spark-ec2 lệnh. Có lẽ đó là điều họ muốn chúng ta làm?

Tôi khởi chạy một cụm nút nhỏ 16. Tôi có thể nhìn thấy nó trong bảng điều khiển AWS nhưng các thiết bị đầu cuối đã bị mắc kẹt in ấn các lỗi SSH thông thường cho quá khứ ... gần hai giờ.

Warning: SSH connection error. (This could be temporary.) Host: ec2-54-165-25-18.compute-1.amazonaws.com SSH return code: 255 SSH output: ssh: connect to host ec2-54-165-25-18.compute-1.amazonaws.com port 22: Connection refused

Sẽ cập nhật nếu tôi thấy bất kỳ điều gì hữu ích.

+0

Tôi đã làm những gì bạn đề xuất với sự khác biệt khi tôi sử dụng https://github.com/amplab/spark-ec2/tree/branch-2.0. Cảm ơn. –

+0

Điều này thật khó hiểu. Không có thư mục 'ec2' nào trong một nhánh,' branch-1.6' hoặc 'branch-2.0'. Thư mục 'ec2' trước đây có phải là thư mục ** root ** của https://github.com/amplab/spark-ec2/tree/branch-2.0 không? –

+0

Chỉ cần thêm https://github.com/amplab/spark-ec2/issues/89. Hãy hy vọng nó được sửa chữa sớm. –

1

Bạn sẽ cần phải tải xuống tất cả các nguồn từ here. Lưu ý rằng tôi đã cung cấp nhánh github 2.0. Bạn có thể tìm thấy hướng dẫn về cách chạy trên liên kết trước và here là bài đăng trên blog mà tôi đã viết về chủ đề có thể đơn giản hóa cuộc sống của bạn.

Hy vọng tôi đã cố gắng giúp đỡ! :)

0

Amplab Spark-ec2 không còn được duy trì theo trang repo github của chúng. Bạn có thể tạo cụm tia lửa bằng cách sử dụng flintrock thay vào đó trên AWS EC2.

Các vấn đề liên quan