import numpy as np
df = spark.createDataFrame(
[(1, 1, None), (1, 2, float(5)), (1, 3, np.nan), (1, 4, None), (1, 5, float(10)), (1, 6, float('nan')), (1, 6, float('nan'))],
('session', "timestamp1", "id2"))
sản lượng dự kiến Làm thế nào để tìm số lượng giá trị Null và Nan cho mỗi cột trong một khung dữ liệu Pyspark hiệu quả?
dataframe với tội danh nan/null cho mỗi cột
Lưu ý: Những câu hỏi trước đó tôi tìm thấy trong stack overflow chỉ kiểm tra cho null & không nan. Đó là lý do tại sao tôi đã tạo một câu hỏi mới.
Tôi biết tôi có thể sử dụng hàm isnull() trong tia lửa để tìm số giá trị Null trong cột Spark nhưng cách tìm giá trị Nan trong khung dữ liệu Spark?
Bạn có muốn tính riêng giá trị nan/Null cho mỗi cột (do đó, hai cột cho mỗi cột) hoặc bạn có muốn biết chỉ có bao nhiêu phần tử của các cột không thể được coi là một số? – titiro89
số lượng riêng biệt của giá trị nan/Null sẽ hoạt động –