2015-09-11 19 views

Trả lời

8

Cách dễ nhất và tốt nhất để thực hiện việc này là sử dụng thư viện spark-csv. Bạn có thể kiểm tra tài liệu trong liên kết được cung cấp và here là ví dụ về cách tải và lưu dữ liệu từ/vào DataFrame.

Mã (Spark 1.4+):

dataFrame.write.format("com.databricks.spark.csv").save("myFile.csv") 

Edit:

Spark tạo bán tập tin trong khi lưu dữ liệu csv, nếu bạn muốn kết hợp các phần-file vào một csv đơn lẻ, vui lòng tham khảo những điều sau:

Merge Spark's CSV output folder to Single File

1

Giải pháp trên xuất khẩu csv dưới dạng nhiều phân vùng. Tôi tìm thấy một giải pháp khác bằng cách zero323 trong stackoverflow page xuất một khung dữ liệu vào một tệp CSV duy nhất.

df.coalesce(1) 
    .write.format("com.databricks.spark.csv") 
    .option("header", "true") 
    .save("/your/location/mydata.csv") 
Các vấn đề liên quan