Trong Pyspark, tôi có thể tạo ra một RDD từ một danh sách và quyết định có bao nhiêu phân vùng để có:Số phân vùng trong RDD và hiệu suất trong Spark
sc = SparkContext()
sc.parallelize(xrange(0, 10), 4)
Làm thế nào để số lượng phân vùng tôi quyết định để phân vùng RDD của tôi ảnh hưởng đến hiệu suất? Và điều này phụ thuộc vào số lõi máy của tôi như thế nào?
Tôi thực sự khuyên bạn nên [link] này (http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/). Chuyển đến phần "Điều chỉnh song song". Nó trở nên khá phức tạp, nhưng nó chắc chắn là chiều sâu. –