Tôi muốn sử dụng hàm pyspark.mllib.stat.Statistics.corr
để tính toán mối tương quan giữa hai cột của đối tượng pyspark.sql.dataframe.DataFrame
. Chức năng corr
hy vọng sẽ mất một đối tượng rdd
của Vectors
. Làm cách nào để dịch một cột của df['some_name']
sang rdd
của đối tượng Vectors.dense
?Pyspark tương quan điện toán
5
A
Trả lời
5
Sẽ không cần thiết cho điều đó. Đối với số bạn có thể tính toán tương quan trực tiếp sử dụng DataFrameStatFunctions.corr
:
df1 = sc.parallelize([(0.0, 1.0), (1.0, 0.0)]).toDF(["x", "y"])
df1.stat.corr("x", "y")
# -1.0
nếu không bạn có thể sử dụng VectorAssembler
:
from pyspark.ml.feature import VectorAssembler
assembler = VectorAssembler(inputCols=df.columns, outputCol="features")
assembler.transform(df).select("features").flatMap(lambda x: x)
1
Ok I figured it out:
v1 = df.flatMap(lambda x: Vectors.dense(x[col_idx_1]))
v2 = df.flatMap(lambda x: Vectors.dense(x[col_idx_2]))
Các vấn đề liên quan
- 1. giá trị tương quan trong lưới điện từ ggplot2
- 2. Kế toán cho tương quan thời gian trong GLMM
- 3. Thuật toán tìm kiếm tương tự trực quan
- 4. nền tảng điện toán Reversible
- 5. Kết hợp vectơ điện toán hiệu quả
- 6. Pearson tương quan không cho bộ một cách hoàn hảo tương quan
- 7. tương đương với quan sát cho `Promise.reject`
- 8. Vấn đề với giá trị điện toán tính toán bằng cách sử dụng toán học
- 9. Phân cụm tương quan trong R
- 10. Tìm hiểu thêm về điện toán phân tán
- 11. python - cách tính toán ma trận tương quan với các nans trong ma trận dữ liệu
- 12. MySQL Math - Có thể tính toán mối tương quan trong truy vấn không?
- 13. Thuật toán để tìm hình ảnh tương tự trực quan từ cơ sở dữ liệu?
- 14. Tính toán mối tương quan giữa hai dataframes yêu cầu một vòng lặp?
- 15. Bản đồ nhiệt tương quan
- 16. Tiêu chí API tương quan
- 17. Tạo ID tương quan JMS
- 18. python tương quan chéo tròn
- 19. Tìm ma trận tương quan
- 20. Tương quan của Pearson có trọng số?
- 21. PySpark 1.5 & MSSQL jdbc
- 22. Tương quan chéo (tương quan trễ thời gian) với gấu trúc?
- 23. pyspark Window.partitionBy vs groupBy
- 24. Chạy nosetests cho pyspark
- 25. takeOrdered giảm dần Pyspark
- 26. Pyspark: repartition vs partitionBy
- 27. Nổ trong PySpark
- 28. Không thể chạy pyspark
- 29. PySpark Drop Rows
- 30. Áp dụng một hàm cửa sổ để tính toán sự khác biệt trong pySpark
Nó chỉ hỗ trợ pearson. – VJune