Gần đây tôi đã điều chỉnh hiệu suất của một số công việc nặng nhọc, xáo trộn lớn. Nhìn vào giao diện người dùng Spark, tôi nhận thấy một tùy chọn có tên "Shuffle Read Blocked Time" trong phần chỉ số bổ sung.Spark - Trộn ngẫu nhiên Đọc thời gian bị chặn
"Thời gian bị chặn ngẫu nhiên đọc" này dường như chiếm tới 50% thời lượng tác vụ cho một loạt các tác vụ lớn.
Trong khi tôi có thể giới thiệu một số khả năng cho điều này có nghĩa là gì, tôi không thể tìm thấy bất kỳ tài liệu nào giải thích những gì nó thực sự đại diện. Không cần phải nói, tôi cũng không thể tìm thấy bất kỳ tài nguyên nào về chiến lược giảm thiểu.
Có ai có thể cung cấp một số thông tin chi tiết về cách tôi có thể giảm thời gian chặn ngẫu nhiên đọc không?