Tôi đang cố gắng hiểu cách tia lửa chạy trên cụm/máy khách YARN. Tôi có câu hỏi sau đây trong tâm trí của tôi.Spark trên hiểu biết về khái niệm sợi
Có cần thiết tia lửa được lắp đặt trên tất cả các nút trong cụm sợi không? Tôi nghĩ rằng nó nên bởi vì các nút công nhân trong cụm thực thi một nhiệm vụ và sẽ có thể giải mã mã (spark API) trong ứng dụng tia lửa gửi đến cluster bởi trình điều khiển?
Nó nói trong tài liệu "Đảm bảo rằng
HADOOP_CONF_DIR
hoặcYARN_CONF_DIR
trỏ đến thư mục chứa tệp cấu hình (phía máy khách) cho cụm Hadoop". Tại sao nút máy khách phải cài đặt Hadoop khi nó gửi công việc đến cluster?
Cảm ơn bạn đã trả lời. Bài viết rất tuyệt. Tuy nhiên tôi vẫn có một câu hỏi. Theo như tôi hiểu, nút của tôi không cần phải nằm trong cụm sợi. Vì vậy, tại sao tôi phải cài đặt hadoop. Tôi nên một số làm thế nào có thể trỏ đến cụm sợi đang chạy một số nơi khác? – Sporty
Bạn có ý nghĩa gì với "cài đặt hadoop"? Bởi vì Hadoop là một đống công nghệ rất lớn bao gồm HDFS, Hive, Hbase ... Vậy bạn muốn cài đặt gì trong Hadoop? – Junayy
Tôi cũng mới và vẫn cố gắng nắm bắt. Tôi có nghĩa là tôi có cụm hdfs chạy trên một nút khác. Vì vậy, điểm HADOOP_CONF_DIR của tôi đến trong spark-env của tôi.sh – Sporty