Tôi đang cố chuyển đổi Pandas DF thành Spark one. DF đầu:Chuyển đổi khung dữ liệu Pandas thành lỗi dữ liệu của Spark
10000001,1,0,1,12:35,OK,10002,1,0,9,f,NA,24,24,0,3,9,0,0,1,1,0,0,4,543
10000001,2,0,1,12:36,OK,10002,1,0,9,f,NA,24,24,0,3,9,2,1,1,3,1,3,2,611
10000002,1,0,4,12:19,PA,10003,1,1,7,f,NA,74,74,0,2,15,2,0,2,3,1,2,2,691
Code:
dataset = pd.read_csv("data/AS/test_v2.csv")
sc = SparkContext(conf=conf)
sqlCtx = SQLContext(sc)
sdf = sqlCtx.createDataFrame(dataset)
Và tôi đã nhận ra lỗi:
TypeError: Can not merge type <class 'pyspark.sql.types.StringType'> and <class 'pyspark.sql.types.DoubleType'>
Giả định đầu tiên của tôi là tệp chứa cả số và chuỗi trong một cột và Spark gây nhầm lẫn trên đó. Tuy nhiên, nó sẽ được xử lý bởi Pandas khi nhập khẩu. –
DF của bạn có tên cột không? – MaxU
Có. Tôi có nên tắt chúng không? –