2015-09-24 17 views
8

Tôi có RDD mà tôi đang tạo bằng cách tải một tệp văn bản và xử lý trước nó. Tôi không muốn thu thập nó và lưu nó vào đĩa hoặc bộ nhớ (toàn bộ dữ liệu) nhưng thay vì muốn chuyển nó đến một số chức năng khác trong python mà tiêu thụ dữ liệu một sau khi khác là hình thức lặp lại.Chuyển đổi RDD thành có thể lặp lại: PySpark?

Làm cách nào có thể?

data = sc.textFile('file.txt').map(lambda x: some_func(x)) 

an_iterable = data. ## what should I do here to make it give me one element at a time? 
def model1(an_iterable): 
for i in an_iterable: 
    do_that(i) 

model(an_iterable) 

Trả lời

Các vấn đề liên quan