Tôi có một cụm tia lửa mà tôi đã tạo thông qua google dataproc. Tôi muốn có thể sử dụng thư viện cs1 csv từ databricks (xem https://github.com/databricks/spark-csv). Vì vậy, tôi lần đầu tiên thử nghiệm nó như thế này:sử dụng thư viện bên ngoài trong công việc pyspark trong cụm Spark từ google-dataproc
tôi bắt đầu một phiên ssh với nút chính của cụm của tôi, sau đó tôi đầu vào:
pyspark --packages com.databricks:spark-csv_2.11:1.2.0
Sau đó, nó đưa ra một vỏ pyspark trong đó tôi đầu vào:
df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('gs:/xxxx/foo.csv')
df.show()
Và nó hoạt động.
bước tiếp theo của tôi là để khởi động công việc này từ máy chính của tôi bằng cách sử dụng lệnh:
gcloud beta dataproc jobs submit pyspark --cluster <my-dataproc-cluster> my_job.py
Nhưng ở đây Nó không làm việc và tôi nhận được một lỗi. Tôi nghĩ bởi vì tôi đã không đưa ra các đối số --packages com.databricks:spark-csv_2.11:1.2.0
, nhưng tôi đã thử 10 cách khác nhau để cung cấp cho nó và tôi đã không quản lý.
Câu hỏi của tôi là:
- được thư viện databricks csv cài đặt sau khi tôi gõ
pyspark --packages com.databricks:spark-csv_2.11:1.2.0
- tôi có thể viết một dòng trong
job.py
tôi để import nó? - hoặc những thông số nào tôi nên cung cấp cho lệnh gcloud của mình để nhập hoặc cài đặt nó?
Có lỗi trong Dataproc trong đó JARS không được chọn cho công việc Pyspark. Tôi đang tìm kiếm một giải pháp thay thế. Tôi chỉ muốn cho bạn biết rằng chúng tôi đang xem xét lỗi lớn hơn và tôi đang xem liệu chúng tôi có thể xác định bản sửa lỗi tạm thời cho bạn hay không. :) – James
hy vọng cho cả hai cách giải quyết và sửa lỗi ở đây nữa, thx @James! chúng tôi đang cố gắng sử dụng dataproc với các kết nối cassandra từ cả python và scala – navicore