2015-01-29 16 views
6

Tôi đang tìm một tham chiếu đầy đủ các tham số dòng lệnh, biến môi trường và tệp cấu hình, đặc biệt là cách chúng có liên quan với nhau và được ưu tiên.Tham chiếu các tham số dòng lệnh và biến môi trường cho Spark?

Cảm ơn :)

nguồn Known

  • The standalone documentation là tốt nhất mà tôi đã tìm thấy, nhưng nó không mô tả rõ ràng mối quan hệ giữa các biến khác nhau/thông số cũng không có được ưu tiên hơn khác.
  • The configuration documentation cung cấp tổng quan tốt về các thuộc tính ứng dụng, nhưng không cung cấp thông số thời gian khởi chạy chính/phụ.

Ví dụ vấn đề

Các standalone documentation viết như sau:

các tùy chọn cấu hình sau đây có thể được truyền cho các bậc thầy và nhân

...

-d DIR, --work-dir DIR mục để sử dụng cho không gian đầu và nhật ký công việc (mặc định: SPARK_HOM E/công việc); chỉ vào nhân

và sau

SPARK_LOCAL_DIRS Directory để sử dụng cho không gian "đống hỗn độn" trong Spark

SPARK_WORKER_DIR Directory để chạy các ứng dụng trong, mà sẽ bao gồm cả các bản ghi và không gian đầu (mặc định: SPARK_HOME/cơ quan).

Là một tia lửa mới, giờ đây tôi hơi bối rối.

  • Mối quan hệ giữa SPARK_LOCAL_DIRS, SPARK_WORKER_DIR-d là gì.
  • Điều gì sẽ xảy ra nếu tôi chỉ định tất cả các giá trị khác nhau - được ưu tiên.
  • Biến nào được viết trong $SPARK_HOME/conf/spark-env.sh được ưu tiên hơn biến được xác định trong chuỗi khởi động shell/script không?

lý tưởng giải pháp

Những gì tôi đang tìm kiếm là esentially một tham chiếu duy nhất, rằng

  1. xác định ưu tiên của các cách khác nhau để xác định các biến cho tia lửa và
  2. liệt kê tất cả các biến/thông số .

Ví dụ một cái gì đó như thế này:

Varialble   | Cmd-line | Default   | Description 
SPARK_MASTER_PORT | -p --port | 8080    | Port for master to listen on 
SPARK_SLAVE_PORT | -p --port | random   | Port for slave to listen on 
SPARK_WORKER_DIR | -d --dir | $SPARK_HOME/work | Used as default for worker data 
SPARK_LOCAL_DIRS |   | $SPARK_WORKER_DIR| Scratch space for RDD's 
....    | ....  | ....    | .... 
+0

Liên kết cấu hình trong câu hỏi của bạn không trỏ đến đúng trang. http://spark.apache.org/docs/1.2.0/configuration.html –

+0

Xin lỗi về điều đó. Sửa lỗi. Cảm ơn bạn đã cho tôi biết @ G.Cito – Tobber

Trả lời

6

Vì vậy, nó có vẻ như câu trả lời ngắn gọn là: tài liệu như vậy không tồn tại. Tôi đã tạo a request for it on JIRA, vì vậy hy vọng điều này sẽ được khắc phục trong tương lai nhưng đã bị đóng vì sẽ không sửa chữa (tháng 2 năm 2016).

Precedence

Tôi đã làm một thử nghiệm nhỏ và thấy rằng các ưu tiên là:

  1. dòng lệnh paramereters được sử dụng đầu tiên
  2. conf/spark-env.sh được sử dụng khi các thông số dòng lệnh vắng mặt
  3. Biến môi trường được sử dụng lần cuối - có lẽ vì spark-env.sh ghi đè chúng

Bạn có thể xem full testscript here. Để hoàn thành:

#This uses /tmp/sparktest/cmdline/ 
echo "SPARK_WORKER_DIR=/tmp/sparktest/file/" > $SPARK_HOME/conf/spark-env.sh 
SPARK_WORKER_DIR=/tmp/sparktest/envvar/ $SPARK_HOME/sbin/start-slave.sh 1 spark://$LOCAL_HOSTNAME:7077 -d /tmp/sparktest/cmdline/ 

#This uses /tmp/sparktest/file/ 
echo "SPARK_WORKER_DIR=/tmp/sparktest/file/" > $SPARK_HOME/conf/spark-env.sh 
SPARK_WORKER_DIR=/tmp/sparktest/envvar/ $SPARK_HOME/sbin/start-slave.sh 1 spark://$LOCAL_HOSTNAME:7077 

#This uses /tmp/sparktest/envvar/ 
echo "" > $SPARK_HOME/conf/spark-env.sh 
SPARK_WORKER_DIR=/tmp/sparktest/envvar/ $SPARK_HOME/sbin/start-slave.sh 1 spark://$LOCAL_HOSTNAME:7077 
+2

Tại sao nó đóng cửa là "Sẽ không khắc phục" ?? Tôi thấy điều này quan trọng. Hiện tại tôi đang tìm kiếm nguồn gốc chết tiệt để tìm ra thứ gì đó. – mxmlnkn

Các vấn đề liên quan