Tôi cần chạy chương trình phát tia lửa có lượng dữ liệu khổng lồ. Tôi đang cố gắng tối ưu hóa chương trình tia lửa và làm việc thông qua giao diện người dùng và cố gắng giảm phần Trộn.Sự khác biệt giữa cách đọc ngẫu nhiên và ghi ngẫu nhiên là gì?
Có một vài thành phần được đề cập, trộn và đọc ngẫu nhiên. Tôi có thể hiểu được sự khác biệt dựa trên thuật ngữ của họ, nhưng tôi muốn hiểu ý nghĩa chính xác của chúng và cái nào của một cú đánh ngẫu nhiên đọc/ghi làm giảm hiệu suất?
Tôi đã tìm kiếm trên internet, nhưng không thể tìm thấy chi tiết chuyên sâu về chúng, vì vậy muốn xem liệu có ai có thể giải thích chúng ở đây không.
Mẹo tối ưu hóa một số trong Spark: cố gắng giảm số lần xáo trộn. – LiMuBei