Trong gấu trúc, điều này có thể được thực hiện bởi column.name.Làm cách nào để lấy tên cột dataframe trong pyspark?
Nhưng làm cách nào để thực hiện tương tự khi cột dữ liệu tia lửa của cột đó?
ví dụ: Chương trình gọi điện thoại có dataframe spark: spark_df
>>> spark_df.columns
['admit', 'gre', 'gpa', 'rank']
Chương trình này gọi là chức năng của tôi: my_function (spark_df [ 'cấp bậc']) Trong my_function, tôi cần tên của cột tức là chữ 'rank'
Nếu nó là gấu trúc dataframe, chúng ta có thể sử dụng bên trong my_function
>>> pandas_df['rank'].name
'rank'
Điều tôi muốn biết là tên của cột là tham số đầu vào cho hàm của tôi. Chương trình gọi sẽ gọi my_function bởi my_function (spark_df ['rank']) Bên trong my_function làm cách nào tôi biết tên của cột được chuyển? –
Bạn có thể sử dụng 'pyspark.sql.functions.col' để truy cập một cột theo tên. Ví dụ: 'df.filter (col (var_name)> 1)' – ShuaiYuan
@ShuaiYuan, Đó không phải điều tôi muốn. Bên trong my_function (col) làm cách nào để biết tên col? Gọi hàm theo hàm my_function (spark_df ['rank']) Bên trong my_function, tôi muốn trích xuất 'rank' làm tên cột từ tham số đầu vào: col –