Giả sử rằng chúng ta có một Spark DataFrameLàm thế nào để áp dụng một chức năng cho một cột của một DataFrame Spark?
df.getClass
Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.DataFrame
với giản đồ sau
df.printSchema
root
|-- rawFV: string (nullable = true)
|-- tk: array (nullable = true)
| |-- element: string (containsNull = true)
Cho rằng mỗi hàng của cột tk
là một mảng các chuỗi, làm thế nào để viết một hàm Scala rằng sẽ trả về số lượng các phần tử trong mỗi hàng?
Hoàn hảo! Đối với tính tổng quát, tôi muốn biết cách áp dụng một UDF cho một khung dữ liệu. Bạn có thể chỉ cho tôi một ví dụ đơn giản không? – ranlot
Có hàng tá ví dụ về SO ([một vài ví dụ] (https://stackoverflow.com/search?q=user%3A1560062+import+org.apache.spark.sql.functions.udf+ [apache-spark])) và như luôn luôn nguồn (đặc biệt là kiểm tra) là nơi tốt để bắt đầu. – zero323
Bạn sẽ sử dụng hàm size_ này như thế nào? – ranlot