2014-07-23 18 views
26

Tôi đang cố gắng hiểu cách tia lửa chạy trên cụm/máy khách YARN. Tôi có câu hỏi sau đây trong tâm trí của tôi.Spark trên hiểu biết về khái niệm sợi

  1. Có cần thiết tia lửa được lắp đặt trên tất cả các nút trong cụm sợi không? Tôi nghĩ rằng nó nên bởi vì các nút công nhân trong cụm thực thi một nhiệm vụ và sẽ có thể giải mã mã (spark API) trong ứng dụng tia lửa gửi đến cluster bởi trình điều khiển?

  2. Nó nói trong tài liệu "Đảm bảo rằng HADOOP_CONF_DIR hoặc YARN_CONF_DIR trỏ đến thư mục chứa tệp cấu hình (phía máy khách) cho cụm Hadoop". Tại sao nút máy khách phải cài đặt Hadoop khi nó gửi công việc đến cluster?

Trả lời

19

Chúng tôi đang chạy công việc tạo tia lửa trên YARN (chúng tôi sử dụng HDP 2.2).

Chúng tôi không có cài đặt tia lửa trên cụm. Chúng tôi chỉ thêm bình lắp ráp Spark vào HDFS.

Ví dụ để chạy các ví dụ Pi:

./bin/spark-submit \ 
    --verbose \ 
    --class org.apache.spark.examples.SparkPi \ 
    --master yarn-cluster \ 
    --conf spark.yarn.jar=hdfs://master:8020/spark/spark-assembly-1.3.1-hadoop2.6.0.jar \ 
    --num-executors 2 \ 
    --driver-memory 512m \ 
    --executor-memory 512m \ 
    --executor-cores 4 \ 
    hdfs://master:8020/spark/spark-examples-1.3.1-hadoop2.6.0.jar 100 

--conf spark.yarn.jar=hdfs://master:8020/spark/spark-assembly-1.3.1-hadoop2.6.0.jar - cấu hình này nói lên sợi từ là để có những lắp ráp tia lửa. Nếu bạn không sử dụng nó, nó sẽ tải lên các jar từ bạn chạy spark-submit.

Giới thiệu câu hỏi thứ hai của bạn: Nút máy khách không cần cài đặt Hadoop. Nó chỉ cần các tập tin cấu hình. Bạn có thể sao chép thư mục từ cụm của bạn vào ứng dụng khách.

1

1 - Spark nếu cấu trúc phụ/chủ sau đây. Vì vậy, trên cụm của bạn, bạn phải cài đặt một tia lửa master và N tia lửa. Bạn có thể chạy tia lửa ở chế độ độc lập. Nhưng việc sử dụng kiến ​​trúc Yarn sẽ mang lại cho bạn một số lợi ích. Có một lời giải thích rất tốt về nó ở đây: http://blog.cloudera.com/blog/2014/05/apache-spark-resource-management-and-yarn-app-models/

2- Điều này là cần thiết nếu bạn muốn sử dụng Sợi hoặc HDFS chẳng hạn, nhưng như tôi đã nói trước khi bạn có thể chạy ở chế độ độc lập.

+0

Cảm ơn bạn đã trả lời. Bài viết rất tuyệt. Tuy nhiên tôi vẫn có một câu hỏi. Theo như tôi hiểu, nút của tôi không cần phải nằm trong cụm sợi. Vì vậy, tại sao tôi phải cài đặt hadoop. Tôi nên một số làm thế nào có thể trỏ đến cụm sợi đang chạy một số nơi khác? – Sporty

+0

Bạn có ý nghĩa gì với "cài đặt hadoop"? Bởi vì Hadoop là một đống công nghệ rất lớn bao gồm HDFS, Hive, Hbase ... Vậy bạn muốn cài đặt gì trong Hadoop? – Junayy

+0

Tôi cũng mới và vẫn cố gắng nắm bắt. Tôi có nghĩa là tôi có cụm hdfs chạy trên một nút khác. Vì vậy, điểm HADOOP_CONF_DIR của tôi đến trong spark-env của tôi.sh – Sporty

16

Thêm vào câu trả lời khác ..

  1. Có cần thiết mà tia lửa được cài đặt trên tất cả các nút trong sợi cụm?

Không, Nếu công việc tia lửa được lên kế hoạch trong sợi (hoặc client hoặc cluster mode). Chỉ cần cài đặt Spark ở nhiều nút cho standalone mode.

Đây là những hình ảnh của chế độ triển khai ứng dụng tia lửa.

Spark Độc lập Cụm Spark standalone mode

Trong cluster chế độ lái xe sẽ được ngồi trong một trong những nút Worker Spark trong khi ở chế độ client nó sẽ được trong máy mà đưa ra công việc.


chế độ cụm SỢI YARN cluster mode

chế độ SỢI client YARN client mode

Bảng này cung cấp một danh sách ngắn gọn về sự khác biệt giữa các chế độ:

differences among Standalone, YARN Cluster and YARN Client modes

pics source

  1. Nó nói trong tài liệu "Đảm bảo rằng HADOOP_CONF_DIR hoặc YARN_CONF_DIR điểm đến thư mục chứa (phía khách hàng) file cấu hình cho cụm Hadoop". Tại sao nút máy khách có để cài đặt Hadoop khi nó đang gửi công việc đến cluster?

Cài đặt Hadoop không bắt buộc nhưng cấu hình là !. Đây có thể là hai lý do chính.

  • Cấu hình chứa trong HADOOP_CONF_DIR thư mục sẽ được phân phối cho các cụm SỢI để tất cả các container được sử dụng bởi các ứng dụng sử dụng cấu hình tương tự.
  • Ở chế độ YARN, địa chỉ của ResourceManager được chọn từ cấu hình Hadoop (yarn-default.xml). Do đó, tham số --masteryarn.


Cập nhật: (2017-01-04)

Spark 2.0+ không còn đòi hỏi một jar lắp ráp mỡ phục vụ sản xuất triển khai. source

Các vấn đề liên quan