Tôi muốn sử dụng trình phân loại xgboost được giả định trong pyspark nhưng các nút trên cụm không có mô-đun xgboost được cài đặt. Tôi có thể pickle các classifier tôi đã đào tạo và phát sóng nó nhưng điều này là không đủ như tôi vẫn cần module được nạp tại mỗi nút cluster.Làm thế nào để phân phối mô-đun xgboost để sử dụng trong tia lửa?
Tôi không thể cài đặt nó trên các nút cụm vì tôi không có gốc và không có hệ thống tệp được chia sẻ.
Làm thế nào tôi có thể phân phối trình phân loại xgboost để sử dụng trong tia lửa?
Tôi có trứng cho xgboost. Có thể một cái gì đó như http://apache-spark-user-list.1001560.n3.nabble.com/Loading-Python-libraries-into-Spark-td7059.html hoặc https://stackoverflow.com/a/24686708/2179021 hoạt động?
Bạn có quyền truy cập SSH vào các máy riêng lẻ không? Bạn sử dụng trình quản lý cụm nào? – zero323
@ zero323 Chúng tôi sử dụng YARN nhưng tôi không có quyền truy cập ssh vào máy một cách đáng buồn. Tôi nghĩ những gì tôi cần làm là tìm một giải pháp liên quan đến việc phát sóng 'quả trứng'. – eleanora
Lời khuyên chân thành của tôi là tìm người chịu trách nhiệm về việc ép buộc hoặc cung cấp cho bạn các thư viện cần thiết hoặc với môi trường có thể định cấu hình (như cài đặt Anaconda). Việc xây dựng và định cấu hình đúng các phụ thuộc gốc không chỉ là về sự thoải mái của bạn mà còn về hiệu suất cơ bản. Và sự khác biệt có thể khá đáng kể. – zero323