9
Tôi có một PySpark DataFrame với 2 lĩnh vực ArrayType:Kết hợp các lĩnh vực PySpark DataFrame ArrayType vào lĩnh vực ArrayType đơn
>>>df
DataFrame[id: string, tokens: array<string>, bigrams: array<string>]
>>>df.take(1)
[Row(id='ID1', tokens=['one', 'two', 'two'], bigrams=['one two', 'two two'])]
Tôi muốn kết hợp chúng thành một lĩnh vực ArrayType duy nhất:
>>>df2
DataFrame[id: string, tokens_bigrams: array<string>]
>>>df2.take(1)
[Row(id='ID1', tokens_bigrams=['one', 'two', 'two', 'one two', 'two two'])]
Cú pháp hoạt động với các chuỗi dường như không hoạt động tại đây:
df2 = df.withColumn('tokens_bigrams', df.tokens + df.bigrams)
Cảm ơn!
gì nếu một trong các giá trị là null trên một hàng? điều này phá vỡ trên udf. – Jeroen