Tôi đang sử dụng spark-1.3.1 (pyspark) và tôi đã tạo một bảng bằng truy vấn SQL. Bây giờ tôi có một đối tượng là một DataFrame. Tôi muốn xuất khẩu đối tượng DataFrame này (tôi đã gọi nó là "bảng") vào một tệp csv để tôi có thể thao tác và vẽ các cột. Làm cách nào để xuất bảng DataFrame "" sang tệp csv?làm cách nào để xuất khung dữ liệu bảng trong pyspark sang csv?
Cảm ơn!
Câu trả lời siêu. Đối với tùy chọn đầu tiên, nếu tôi muốn ghi vào một tệp được phân cách bằng đường ống thay vì CSV được phân tách bằng dấu phẩy, điều này có khả thi không? –
Nếu bạn có các khung dữ liệu tia lửa, bạn có thể sử dụng 'df.write.csv ('/ tmp/lookatme /')' và sẽ thả một tập hợp các tệp csv trong '/ tmp/lookatme' Sử dụng tia lửa nhanh hơn đáng kể so với tuần tự hóa nó trong gấu trúc. Hạn chế duy nhất là bạn sẽ kết thúc với một tập hợp các csvs thay vì một bộ duy nhất và nếu công cụ đích không biết làm thế nào để nối chúng, bạn sẽ cần phải làm điều đó cho mình. – Txangel
Thật là một vấn đề lớn khi nhận được một csv từ tia lửa. Một cái gì đó thú vị về giải pháp đầu tiên đó là 'to_csv' hoạt động mà không cần phải nhập khẩu Pandas. '.toPandas' là một phần của Spark có thể nó nhập khẩu ngầm nó .. – cardamom