2016-05-26 22 views
6

Gần đây tôi đã điều chỉnh hiệu suất của một số công việc nặng nhọc, xáo trộn lớn. Nhìn vào giao diện người dùng Spark, tôi nhận thấy một tùy chọn có tên "Shuffle Read Blocked Time" trong phần chỉ số bổ sung.Spark - Trộn ngẫu nhiên Đọc thời gian bị chặn

"Thời gian bị chặn ngẫu nhiên đọc" này dường như chiếm tới 50% thời lượng tác vụ cho một loạt các tác vụ lớn.

Trong khi tôi có thể giới thiệu một số khả năng cho điều này có nghĩa là gì, tôi không thể tìm thấy bất kỳ tài liệu nào giải thích những gì nó thực sự đại diện. Không cần phải nói, tôi cũng không thể tìm thấy bất kỳ tài nguyên nào về chiến lược giảm thiểu.

Có ai có thể cung cấp một số thông tin chi tiết về cách tôi có thể giảm thời gian chặn ngẫu nhiên đọc không?

Trả lời

1

"Ngẫu nhiên đọc thời gian bị chặn" là thời gian mà các tác vụ đã bỏ chặn chờ đợi để phát ngẫu nhiên dữ liệu được đọc từ các máy từ xa. Số liệu chính xác mà nó cung cấp từ là shuffleReadMetrics.fetchWaitTime.

Khó để đưa đầu vào vào một chiến lược để giảm thiểu nó mà không thực sự biết dữ liệu bạn đang cố đọc hoặc loại máy từ xa bạn đang đọc. Tuy nhiên, hãy xem xét những điều sau:

  1. Kiểm tra kết nối của bạn với các máy từ xa mà bạn đang đọc dữ liệu.
  2. Kiểm tra mã/công việc của bạn để đảm bảo rằng bạn chỉ đọc dữ liệu mà bạn hoàn toàn cần đọc để hoàn thành công việc của mình.
  3. Trong một số trường hợp, bạn có thể xem xét chia công việc của bạn thành nhiều công việc chạy song song, miễn là chúng độc lập với nhau.
  4. Có lẽ bạn có thể nâng cấp cụm của mình để có nhiều nút hơn để bạn có thể chia khối lượng công việc thành chi tiết hơn và do đó có thời gian chờ nhỏ hơn tổng thể.

Đối với các số liệu, tài liệu này nên làm sáng tỏ về họ: https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-webui-StagePage.html

Cuối cùng, tôi cũng đã tìm thấy nó khó khăn để tìm thông tin về Phát ngẫu nhiên đọc bị chặn thời gian, nhưng nếu bạn đặt trong dấu ngoặc kép như: "Shuffle Read Blocked Time" trong một tìm kiếm google, bạn sẽ tìm thấy một số kết quả khá.

Các vấn đề liên quan