Tôi đang sử dụng API Python của Spark và chạy Spark 0.8.Sự khác nhau giữa các lát và phân vùng RDD là gì?
Tôi đang lưu trữ một RDD lớn các vectơ dấu phẩy động và tôi cần thực hiện các phép tính của một vectơ đối với toàn bộ tập hợp.
Có sự khác biệt nào giữa các lát và phân vùng trong RDD không?
Khi tôi tạo RDD, tôi chuyển nó thành tham số làm cho nó lưu trữ RDD dưới dạng 100 lát và tạo 100 tác vụ khi thực hiện các phép tính. Tôi muốn biết nếu phân vùng dữ liệu sẽ cải thiện hiệu suất vượt quá việc cắt bằng cách cho phép hệ thống xử lý dữ liệu hiệu quả hơn (tức là có sự khác biệt giữa hoạt động thực hiện trên phân vùng so với chỉ hoạt động trên mọi phần tử trong RDD đã cắt).
Ví dụ: có sự khác biệt đáng kể nào giữa hai đoạn mã này không?
rdd = sc.textFile(demo.txt, 100)
vs
rdd = sc.textFile(demo.txt)
rdd.partitionBy(100)
http://stackoverflow.com/questions/23436640/what-is-the-different-between-an-rdd-partition-and-a-slice tia lửa-apache –