2015-12-10 15 views
6

Vì vậy, tôi đang lưu một RDD tia lửa vào một thùng S3 bằng cách sử dụng mã sau đây. Có cách nào để nén (ở định dạng gz) và lưu thay vì lưu nó dưới dạng tệp văn bản.Làm thế nào để lưu một RDD tia lửa ở định dạng gzip thông qua pyspark

help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help") 
+0

Hãy xem [ở đây] (http://spark.apache.org/docs/latest/configuration.html# nén và tuần tự hóa) – eliasah

+2

Tôi có thể đề nghị bạn sử dụng [sàn gỗ] (http://spark.apache.org/docs/latest/sql-programming-guide.html#manually-specifying-options)? :) –

Trả lời

10

saveAsTextFile phương pháp có một đối số tùy chọn trong đó nêu rõ lớp codec nén:

help_data.repartition(5).saveAsTextFile(
    path="s3://help-test/logs/help", 
    compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec" 
) 
Các vấn đề liên quan