pySpark Tạo DataFrame từ RDD bằng Khóa/Giá trị

Nếu tôi có RDD của Khóa/Giá trị (khóa là chỉ mục cột) có thể tải nó vào một khung dữ liệu không? Ví dụ:pySpark Tạo DataFrame từ RDD bằng Khóa/Giá trị

(0,1), (0,1), (0,2), (1,2), (1,10), (1,20), (3,18), (3,18), (3,18)

Và có cái nhìn dataframe như:

1,2,18 
1,10,18 
2,20,18

Nguồn

2015-05-02 theMadKing

Có nó có thể (thử nghiệm với Spark 1.3.1):

>>> rdd = sc.parallelize([(0,1), (0,1), (0,2), (1,2), (1,10), (1,20), (3,18), (3,18), (3,18)]) 
>>> sqlContext.createDataFrame(rdd, ["id", "score"]) 
Out[2]: DataFrame[id: bigint, score: bigint]

Nguồn

2015-05-02 20:43:11

Điều này tương đương với 'rdd.toDF ([" id "," score "])'? Đối tượng –

'RDD' không có thuộc tính 'toDF'. Đối mặt với lỗi này –

Tôi đang sử dụng 1,6 tia lửa và pyspark. Không thể tải sql.SQLContext và tạo DataFrame ra khỏi nó. –

rdd = sc.parallelize([(0,1), (0,1), (0,2), (1,2), (1,10), (1,20), (3,18), (3,18), (3,18)]) 

df=rdd.toDF(['id','score']) 

df.show()

Câu trả lời là:

+---+-----+ 
| id|score| 
+---+-----+ 
| 0| 1| 
| 0| 1| 
| 0| 2| 
| 1| 2| 
| 1| 10| 
| 1| 20| 
| 3| 18| 
| 3| 18| 
| 3| 18| 
+---+-----+

Nguồn

2017-02-10 04:39:39 srinivasu

pySpark Tạo DataFrame từ RDD bằng Khóa/Giá trị

Trả lời

Các vấn đề liên quan