Có cách nào tốt hơn để đặt trước hoặc đổi tên tất cả hoặc nhiều cột cùng lúc với một SparkSQL DataFrame
nhất định hơn gọi nhiều lần dataFrame.withColumnRenamed()
?Spark DataFrame và đổi tên nhiều cột (Java)
Ví dụ sẽ là nếu tôi muốn phát hiện các thay đổi (sử dụng kết hợp bên ngoài đầy đủ). Sau đó, tôi còn lại với hai DataFrame
s có cùng cấu trúc.
Đó là thêm về Java API và Spark. Ví dụ 'select' mong muốn một tham số String và sau đó varargs hoặc mảng' Column 'không nhất quán và đôi khi cũng hơi khó chịu khi sử dụng. Tôi đã phải tạo ra một vài phương thức trợ giúp để giải quyết vấn đề này, nhưng sẽ tốt hơn nếu có các phương thức đó trực tiếp trong 'DataFrame'. – JiriS
Có một ví dụ khác [tại đây] (http://stackoverflow.com/questions/32535273/how-to-match-dataframe-column-names-to-scala-case-class-attributes) –
Bạn đã thử mã của mình chưa Spark 2.0? Tôi đang xử lý 7000 cột, xem https://github.com/ramhiser/datamicroarray/wiki/Golub-(1999). Phải mất mãi mãi (= không bao giờ kết thúc trước khi sự kiên nhẫn của tôi kết thúc). – Boern