Tôi có hàng ngàn tệp nén mỗi kích thước 2 GB nằm trong HDFS. Tôi đang sử dụng tia lửa để xử lý các tệp này. Tôi đang sử dụng phương thức Spark textFile() để tải các tệp từ HDFS. Câu hỏi của tôi là làm thế nào tôi có thể phân vùng lại dữ liệu để tôi có thể xử lý từng tệp song song. Hiện tại, mỗi tệp .gz được xử lý trong một tác vụ duy nhất. Vì vậy, nếu tôi xử lý 1000 tập tin chỉ có 1000 tác vụ được thực hiện. Tôi hiểu rằng các tệp nén không thể chia nhỏ được. Nhưng có cách nào khác tôi có thể sử dụng để chạy công việc của tôi nhanh hơn?Làm cách nào để phân vùng lại tệp nén trong Apache Spark?
5
A
Trả lời
3
Bạn có thể sử dụng rdd.repartition(#partitions)
sau khi tải tệp. Điều này có một chi phí shuffle liên quan, vì vậy bạn cần phải đánh giá nếu đạt được hiệu suất song song bao gồm cho chi phí shuffle ban đầu này.
Một cách khác là thực hiện bất kỳ phép biến đổi nào (bản đồ, bộ lọc, ...) trên phân vùng ban đầu và sử dụng bất kỳ giai đoạn trộn nào đã có trong đường dẫn của bạn để phân vùng lại RDD. ví dụ.
rdd.map().filter().flatMap().sortBy(f, numPartitions=new#ofpartitions)
Các vấn đề liên quan
- 1. Hỗ trợ nén trong Apache Spark
- 2. Thả phân vùng DataFrame trống trong Apache Spark
- 3. Spark quyết định cách phân vùng RDD như thế nào?
- 4. Trong Apache Spark, tại sao RDD.union không bảo vệ trình phân vùng?
- 5. Cách dữ liệu nhị phân 'Ống' trong Apache Spark
- 6. Làm thế nào để chạy Nguồn Apache Spark trong C#
- 7. Đọc tệp HDF5 trong Apache Spark
- 8. Phân vùng bằng đồ thị Spark
- 9. Apache Spark vs Apache Spark 2
- 10. Làm thế nào để kích hoạt tính năng tỉa phân vùng trong spark
- 11. Số phân vùng trong RDD và hiệu suất trong Spark
- 12. Làm cách nào để triển khai tính năng nén Brotli trong Apache?
- 13. Phân vùng quá mức (quá nhiều tác vụ) trên cụm Apache Spark/Cassandra
- 14. Apache Spark RDD Split "|"
- 15. Đọc các tệp json khá in trong Apache Spark
- 16. Thiết lập phân bổ động trong Apache Spark?
- 17. Làm cách nào để tôi có thể nén trước các tệp bằng mod_deflate trong Apache 2.x?
- 18. Spark: chiến lược phân vùng lại sau khi đọc file văn bản
- 19. Apache Spark vs Akka
- 20. Apache Spark và Apache Storm
- 21. Spark: Tìm Mỗi Kích thước Phân vùng cho RDD
- 22. Apache Spark: java.lang.NoSuchMethodError .rddToPairRDDFunctions
- 23. Spark 1.0.2 (cũng 1.1.0) treo trên một phân vùng
- 24. Làm cách nào để giải nén/giải nén trong Emacs
- 25. Apache Spark đọc tệp dưới dạng luồng từ HDFS
- 26. Làm thế nào để tính toán nghịch đảo của một RowMatrix trong Apache Spark?
- 27. Làm thế nào để thêm bất cứ thư viện mới như spark-csv trong Apache Spark dựng sẵn phiên bản
- 28. Làm cách nào để đọc/ghi các tệp đã nén?
- 29. Làm thế nào để phân vùng một gói tham số?
- 30. Phép nhân ma trận trong Apache Spark
đây là những gì tôi hiện đang làm, nhưng khi tải dữ liệu không song song. Đối với một tập tin, nó chỉ thực hiện một nhiệm vụ trong khi tải. Tôi đã tự hỏi nếu chúng ta có thể song song trong khi tải dữ liệu. – None
@hadooped không phải là tôi biết. Tôi hy vọng rằng ai đó biết rõ hơn. – maasg