Chức năng .map() nào trong python để tôi sử dụng để tạo tập hợp các nhãn được gắn nhãn từ một khung dữ liệu tia lửa? Ký hiệu là gì Nếu nhãn/kết quả không phải là cột đầu tiên nhưng tôi có thể tham chiếu đến tên cột của nó, 'trạng thái'?Tạo nhãnPointPoint từ Spark DataFrame bằng Python
tôi tạo dataframe python với chức năng .map() này:
def parsePoint(line):
listmp = list(line.split('\t'))
dataframe = pd.DataFrame(pd.get_dummies(listmp[1:]).sum()).transpose()
dataframe.insert(0, 'status', dataframe['accepted'])
if 'NULL' in dataframe.columns:
dataframe = dataframe.drop('NULL', axis=1)
if '' in dataframe.columns:
dataframe = dataframe.drop('', axis=1)
if 'rejected' in dataframe.columns:
dataframe = dataframe.drop('rejected', axis=1)
if 'accepted' in dataframe.columns:
dataframe = dataframe.drop('accepted', axis=1)
return dataframe
tôi chuyển nó sang một dataframe tia lửa sau khi giảm chức năng đã kết hợp lại tất cả các dataframes gấu trúc.
parsedData=sqlContext.createDataFrame(parsedData)
Nhưng bây giờ làm cách nào để tạo labedPoints từ mã này trong python? Tôi giả sử nó có thể là một .map() chức năng?
này không hoạt động, không may. Thứ nhất, '.map()' không hoạt động với các khung dữ liệu. Thứ hai, ngay cả khi người ta chuyển đổi sang RDD trước, nó tạo ra lỗi 'TypeError: Không thể chuyển đổi kiểu thành Vector'. –
xenocyon