Tôi đang cố tạo một khung dữ liệu trống trong Spark (Pyspark).Cách tạo DataFrame trống? Tại sao "ValueError: RDD trống"?
Tôi đang sử dụng cách tiếp cận tương tự với cách được thảo luận ở đây enter link description here, nhưng nó không hoạt động.
Đây là mã của tôi
df = sqlContext.createDataFrame(sc.emptyRDD(), schema)
Đây là lỗi
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/Users/Me/Desktop/spark-1.5.1-bin-hadoop2.6/python/pyspark/sql/context.py", line 404, in createDataFrame
rdd, schema = self._createFromRDD(data, schema, samplingRatio)
File "/Users/Me/Desktop/spark-1.5.1-bin-hadoop2.6/python/pyspark/sql/context.py", line 285, in _createFromRDD
struct = self._inferSchema(rdd, samplingRatio)
File "/Users/Me/Desktop/spark-1.5.1-bin-hadoop2.6/python/pyspark/sql/context.py", line 229, in _inferSchema
first = rdd.first()
File "/Users/Me/Desktop/spark-1.5.1-bin-hadoop2.6/python/pyspark/rdd.py", line 1320, in first
raise ValueError("RDD is empty")
ValueError: RDD is empty
Ông có thể cung cấp một số nguồn chứng minh tuyên bố này? –
Có vẻ như nó không thực sự cần thiết. Chỉ cần nhìn vào thông tin API cho createDataFrame và nó cho thấy mặc định lược đồ là không, vì vậy cần có một cách để tạo một khung dữ liệu không có lược đồ: https://spark.apache.org/docs/latest/api/ python/pyspark.sql.html –