Tôi đang phân tích một số dữ liệu với dataframes pyspark, giả sử tôi có một dataframe df
mà tôi đang tập hợp:cột đổi tên cho dataframes pyspark tập hợp
df.groupBy("group")\
.agg({"money":"sum"})\
.show(100)
này sẽ cho tôi:
group SUM(money#2L)
A 137461285853
B 172185566943
C 271179590646
Việc tổng hợp hoạt động tốt nhưng tôi không thích tên cột mới "SUM (money # 2L)". Có cách nào gọn gàng để đổi tên cột này thành nội dung nào đó có thể đọc được từ phương pháp .agg
không? Có lẽ một cái gì đó tương tự như những gì người ta sẽ làm gì trong dplyr
:
df %>% group_by(group) %>% summarise(sum_money = sum(money))
Rất hữu ích và kịp thời. Tôi vừa định hỏi cùng một câu hỏi. Nó sẽ là tốt đẹp nếu bạn có thể chỉ định một tên cột mới trong 'agg' dict (trong Spark tôi có nghĩa là). –
@EvanZamir cảm ơn! Tôi có thể thử và làm một PR đơn giản để châm ngòi cho điều đó. –