Có thể chuyển các đối số thừa vào hàm ánh xạ trong pySpark không? Cụ thể, tôi có phương pháp mã sau:Spark RDD - Ánh xạ với các đối số thừa
raw_data_rdd = sc.textFile("data.json", use_unicode=True)
json_data_rdd = raw_data_rdd.map(lambda line: json.loads(line))
mapped_rdd = json_data_rdd.flatMap(processDataLine)
Chức năng processDataLine
mất lập luận thêm ngoài các đối tượng JSON, như:
def processDataLine(dataline, arg1, arg2)
Làm thế nào tôi có thể vượt qua các đối số phụ arg1
và arg2
để chức năng flaMap
?
Hãy xem xét đọc [này] (http://stackoverflow.com/questions/26959221/pyspark-broadcast-variables-from-local-functions) –
Cảm ơn @AvihooMamka. Như tôi đã hiểu, tôi cần sử dụng một phần chức năng. Nhưng tôi đã không làm thế nào để áp dụng nó cho trường hợp của tôi? –
Tại sao không gửi cho hàm một phần chức năng processDataLine và các đối số bạn muốn sau khi phát nó? –