Tôi đang bối rối về giao dịch với bộ nhớ thực thi và bộ nhớ trình điều khiển trong Spark.Làm thế nào để đối phó với bộ nhớ thực thi và bộ nhớ trình điều khiển trong Spark?
thiết lập môi trường của tôi là như sau:
- Memory 128 G, 16 CPU cho 9 VM
- Centos
- Hadoop 2.5.0-cdh5.2.0
- Spark 1.1.0
Thông tin dữ liệu đầu vào:
- 3,5 GB dữ liệu từ tập tin HDFS
Đối với phát triển đơn giản, tôi thực thi mã Python của tôi trong chế độ cụm độc lập (8 công nhân, 20 lõi, 45,3 G bộ nhớ) với spark-submit
. Bây giờ tôi muốn thiết lập bộ nhớ thực thi hoặc bộ nhớ trình điều khiển để điều chỉnh hiệu suất.
Từ Spark documentation, định nghĩa cho bộ nhớ thi hành di chúc là
Số lượng bộ nhớ sử dụng cho mỗi quá trình thi hành di chúc, trong định dạng giống như chuỗi ký ức JVM (ví dụ 512M, 2g).
Bộ nhớ trình điều khiển như thế nào?