2016-12-27 20 views

Trả lời

4

Kiểm tra các thực thể (giai đoạn, phân vùng) trong pic này:

enter image description here

pic credits

Liệu giai đoạn trong một công việc (? Spark ứng dụng) chạy song song trong tia lửa?

Có, chúng có thể được thực thi song song nếu không có sự phụ thuộc tuần tự.

Ở đây phân vùng giai đoạn 1 và giai đoạn 2 có thể được thực hiện song song nhưng không phải phân đoạn giai đoạn 0, do phân đoạn phụ thuộc trong giai đoạn 1 & 2 phải được xử lý.

Có sự nhất quán nào trong việc thực hiện các giai đoạn có thể được xác định bởi lập trình viên hoặc nó sẽ được khởi động bằng công cụ phát tia lửa không?

Ranh giới giai đoạn được xác định khi xáo trộn dữ liệu xảy ra giữa các phân vùng. (kiểm tra các đường màu hồng trong ảnh)

+1

Hình ảnh tuyệt vời !!! Cảm ơn bạn đã sử dụng nó với các khoản tín dụng! –

+1

Cảm ơn bạn đã giải thích chi tiết ... –

3

Làm thế nào để các giai đoạn thực hiện trong một công việc Spark

Các giai đoạn của một công việc có thể chạy song song nếu không có sự phụ thuộc giữa chúng.

Trong Spark, các giai đoạn được phân tách bằng các đường viền. Bạn có một giai đoạn ngẫu nhiên, đó là giai đoạn ranh giới nơi các phép biến đổi được chia tách, tức là reduceByKey và bạn có một giai đoạn kết quả, là các giai đoạn nhất định mang lại kết quả mà không gây ra ngẫu nhiên, tức là hoạt động map:

Spark stages

(Picture provided by Cloudera)

Kể từ groupByKey là một giai đoạn phát ngẫu nhiên, bạn sẽ thấy sự chia rẽ trong hộp màu hồng đánh dấu một ranh giới.

Nội bộ, một giai đoạn được chia thành các công việc. ví dụ: trong hình ở trên, hàng đầu tiên thực hiện textFile -> map -> filter, có thể được chia thành ba tác vụ, một cho mỗi chuyển đổi.

Khi một đầu ra biến đổi là một đầu vào biến đổi khác, chúng ta cần thực thi nối tiếp. Tuy nhiên, nếu các giai đoạn không liên quan, tức là hadoopFile -> groupByKey -> map, chúng có thể chạy song song. Một khi họ tuyên bố một sự phụ thuộc giữa họ từ giai đoạn đó họ sẽ tiếp tục thực hiện serially.

+0

Các giai đoạn (nghĩa là các tác vụ của chúng) có thể chạy song song nếu không có sự phụ thuộc giữa chúng và có đủ tài nguyên trong một cụm để chạy các tác vụ. –

+0

@JacekLaskowski Cảm ơn bạn đã sửa. Tôi quên mất việc tách một biến đổi trên một đồ thị thành nhiều giai đoạn độc lập. –

+0

Cảm ơn câu trả lời của bạn Yuval..its rất thông tin –

Các vấn đề liên quan