2015-05-02 26 views

Trả lời

10

Có nó có thể (thử nghiệm với Spark 1.3.1):

>>> rdd = sc.parallelize([(0,1), (0,1), (0,2), (1,2), (1,10), (1,20), (3,18), (3,18), (3,18)]) 
>>> sqlContext.createDataFrame(rdd, ["id", "score"]) 
Out[2]: DataFrame[id: bigint, score: bigint] 
+0

Điều này tương đương với 'rdd.toDF ([" id "," score "])'? Đối tượng –

+0

'RDD' không có thuộc tính 'toDF'. Đối mặt với lỗi này –

+0

Tôi đang sử dụng 1,6 tia lửa và pyspark. Không thể tải sql.SQLContext và tạo DataFrame ra khỏi nó. –

0
rdd = sc.parallelize([(0,1), (0,1), (0,2), (1,2), (1,10), (1,20), (3,18), (3,18), (3,18)]) 

df=rdd.toDF(['id','score']) 

df.show() 

Câu trả lời là:

+---+-----+ 
| id|score| 
+---+-----+ 
| 0| 1| 
| 0| 1| 
| 0| 2| 
| 1| 2| 
| 1| 10| 
| 1| 20| 
| 3| 18| 
| 3| 18| 
| 3| 18| 
+---+-----+ 
Các vấn đề liên quan