Tôi đang sử dụng Spark 1.3.0 và Python. Tôi có một khung dữ liệu và tôi muốn thêm một cột bổ sung có nguồn gốc từ các cột khác. Như thế này,Thêm cột mới vào Khung dữ liệu bắt nguồn từ các cột khác (Spark)
>>old_df.columns
[col_1, col_2, ..., col_m]
>>new_df.columns
[col_1, col_2, ..., col_m, col_n]
nơi
col_n = col_3 - col_4
Làm thế nào để làm điều này trong PySpark?
Hey @ zero323, nếu tôi muốn tạo một cột tức là Col_1 là chuỗi và col_2 là chuỗi và tôi muốn column_n là tham gia của col_1 và Col_2. tức là Col_1 bằng 0 và cột_2 là 323. Cột thứ 3 phải là số 032? – Jason
@Jason http://stackoverflow.com/a/31452109/1560062 – zero323
Cảm ơn @ zero323. Mặc dù tôi có câu hỏi này: df.select (concat (col ("k"), lit (""), col ("v"))) Làm cách nào để tạo cột thứ ba ở đây? – Jason