Tôi có Spark chạy trên cụm Cloudera CDH5.3, sử dụng YARN làm trình quản lý tài nguyên. Tôi đang phát triển ứng dụng Spark trong Python (PySpark).PySpark được xử lý phân tán trên cụm YARN
Tôi có thể gửi công việc và chạy thành công, tuy nhiên chúng dường như không bao giờ chạy trên nhiều máy (máy cục bộ mà tôi gửi).
Tôi đã thử nhiều tùy chọn, như cài đặt --chế độ-chế độ thành cụm và - quản trị đối với khách hàng sợi và sợi, nhưng dường như nó chưa bao giờ chạy trên nhiều máy chủ.
Tôi có thể làm cho nó chạy trên nhiều lõi bằng cách truyền một cái gì đó như --master local [8], nhưng rõ ràng là không phân phối quá trình xử lý qua nhiều nút.
Tôi có một rất đơn giản xử lý dữ liệu kịch bản Python từ HDFS như vậy:
import simplejson as json
from pyspark import SparkContext
sc = SparkContext("", "Joe Counter")
rrd = sc.textFile("hdfs:///tmp/twitter/json/data/")
data = rrd.map(lambda line: json.loads(line))
joes = data.filter(lambda tweet: "Joe" in tweet.get("text",""))
print joes.count()
Và tôi đang chạy một lệnh nộp như:
spark-submit atest.py --deploy-mode client --master yarn-client
tôi có thể làm gì để đảm bảo chạy việc song song trên cụm sao?
Tôi đoán điều này là không đúng, Pyspark có thể chạy trên một cụm sợi. –
Nếu bạn muốn chạy Pyspark. Hãy thử: pyspark --deploy-mode client --master sợi-client – kennyut