LAST EDIT
Đối với bất cứ ai có vấn đề này, câu trả lời là đơn giản: here.
EDIT 2
tôi nhận ra sau khi chỉnh sửa đầu tiên mà nó là hơi phức tạp hơn, vì vậy đây là một chỉnh sửa mới về cho bất cứ ai có thể tìm thấy nó hữu ích trong tương lai.
Vấn đề là Spark không còn cung cấp thư mục ec2 như một phần của phân phối chính thức nữa. Nếu bạn đang sử dụng để quay lên các cụm độc lập của bạn theo cách này thì đó là một vấn đề.
Các giải pháp rất đơn giản:
- Tải thư mục EC2 chính thức được nêu chi tiết trong tài liệu hướng dẫn Spark 2.0.0.
- Nếu bạn chỉ cần sao chép thư mục vào Spark 2.0.0 và chạy tệp thực thi
spark-ec2
để bắt chước cách hoạt động trong Spark 1. *, bạn sẽ có thể quay nhóm của mình như bình thường. Nhưng khi bạn ssh vào nó, bạn sẽ nhận ra rằng không ai trong số các nhị phân đang có nữa.
- Vì vậy, khi bạn xoay cụm (như bình thường với
spark-ec2
bạn đã tải xuống ở bước 1), bạn sẽ phải rsync
thư mục cục bộ chứa Spark 2.0.0 vào tổng thể của cụm mới được tạo. Khi việc này hoàn tất, bạn có thể spark-submit
công việc như bình thường.
Thực sự đơn giản nhưng dường như với tôi, tài liệu Spark có thể rõ ràng về điều này cho tất cả chúng ta.
EDIT: này trên thực tế là điều phải làm. Đối với bất kỳ ai có cùng câu hỏi: hãy tải xuống thư mục ec2 từ AMPLab như Spark đề xuất, đặt thư mục này bên trong thư mục Spark-2.0.0 cục bộ của bạn và các tập lệnh kích hoạt như bình thường. Rõ ràng họ chỉ tách rời thư mục cho mục đích bảo trì, nhưng logic vẫn như cũ. Sẽ rất hay khi có một vài từ về nó trong tài liệu Spark.
tôi thử như sau: nhân bản các thư mục bằng tia EC2 ngành-1,6 từ liên kết AMPLab vào thư mục spark-2.0.0 của tôi, và cố gắng để khởi động một cluster với thông thường ./ec2/spark-ec2
lệnh. Có lẽ đó là điều họ muốn chúng ta làm?
Tôi khởi chạy một cụm nút nhỏ 16. Tôi có thể nhìn thấy nó trong bảng điều khiển AWS nhưng các thiết bị đầu cuối đã bị mắc kẹt in ấn các lỗi SSH thông thường cho quá khứ ... gần hai giờ.
Warning: SSH connection error. (This could be temporary.) Host: ec2-54-165-25-18.compute-1.amazonaws.com SSH return code: 255 SSH output: ssh: connect to host ec2-54-165-25-18.compute-1.amazonaws.com port 22: Connection refused
Sẽ cập nhật nếu tôi thấy bất kỳ điều gì hữu ích.
Chuyển đến thư mục ec2 có nghĩa là thư mục mà bạn đã tải xuống Apache Spark từ github. – error2007s
@ error2007s vấn đề là không có thư mục ec2 trong Spark 2.0.0. Các hướng dẫn trong liên kết AMPLab UC Berkeley được cung cấp là rất không rõ ràng. – xv70