Có sự khác biệt trong ngữ nghĩa giữa df.na().drop()
và df.filter(df.col("onlyColumnInOneColumnDataFrame").isNotNull() && !df.col("onlyColumnInOneColumnDataFrame").isNaN())
nơi df
là Apache SparkDataframe
?Sự khác nhau giữa na(). Thả() và bộ lọc (col.isNotNull) (Apache Spark)
Hoặc tôi sẽ xem xét nó như là một lỗi nếu người đầu tiên nó không trả về sau null
(không phải là một chuỗi null, nhưng chỉ đơn giản là một giá trị null
) trong cột onlyColumnInOneColumnDataFrame
và điều thứ hai không?
EDIT: đã thêm !isNaN()
. onlyColumnInOneColumnDataFrame
là cột duy nhất trong Dataframe
nhất định. Giả sử loại của nó là Integer
.
Ông có thể cung cấp một dữ liệu ví dụ? – zero323
Tôi đã nhận thấy những 'null' với mã sau - https://gist.github.com/xjrk58/87dd094e2987ecc448db, nhưng sẽ cố gắng đơn giản hóa nó và cung cấp trường hợp có thể lặp lại với dữ liệu đầu vào. Để chính xác hơn sau khi gọi 'df.show()' trên dòng 4, cột "definitionId" chứa các giá trị 'null'. – JiriS