6
Vì vậy, tôi đang lưu một RDD tia lửa vào một thùng S3 bằng cách sử dụng mã sau đây. Có cách nào để nén (ở định dạng gz) và lưu thay vì lưu nó dưới dạng tệp văn bản.Làm thế nào để lưu một RDD tia lửa ở định dạng gzip thông qua pyspark
help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help")
Hãy xem [ở đây] (http://spark.apache.org/docs/latest/configuration.html# nén và tuần tự hóa) – eliasah
Tôi có thể đề nghị bạn sử dụng [sàn gỗ] (http://spark.apache.org/docs/latest/sql-programming-guide.html#manually-specifying-options)? :) –