Tệp "Phần" được tự động xử lý dưới dạng tập hợp tệp.
val data = sc.textFile("/path/to/my/file") // Will read all parts.
Chỉ cần thêm tiêu đề và viết nó ra:
val header = sc.parallelize(Seq("...header..."))
val withHeader = header ++ data
withHeader.saveAsTextFile("/path/to/my/modified-file")
Lưu ý rằng vì đây có đọc và viết tất cả các dữ liệu, nó sẽ chậm hơn so với những gì bạn bằng trực giác có thể mong đợi một chút. (Sau khi tất cả các bạn chỉ cần thêm một dòng mới!) Vì lý do này và những người khác, bạn có thể không nên thêm tiêu đề này và thay vào đó lưu trữ siêu dữ liệu (danh sách các cột) riêng biệt với dữ liệu.
Nguồn
2015-04-28 21:09:44
tạo Rdd mới với 'val header = sc.parallize (List (" \ n "))' và chỉ thêm hai Rdd này cùng với 'header ++ data'. Nhưng nó không có ý nghĩa, tại sao bạn cần nó? – ipoteka
Tôi xin lỗi, với dòng mới tôi có nghĩa là một dòng với tên của một số cột. Lỗi của tôi. Dù sao thì đó chính xác là những gì tôi cần, cảm ơn bạn! – amarchin
Tôi khuyên bạn nên xem DataFrames. Đơn giản, dataframe chỉ là rdd với một số siêu thông tin về lược đồ và các loại. Và lưu ý rằng 'header ++ data' sẽ không duy trì thứ tự các Rdd lớn. – ipoteka