Tôi đang chạy cụm tia lửa ở chế độ độc lập và ứng dụng bằng cách sử dụng tính năng phát tia lửa. Trong phần giai đoạn UI của giao diện người dùng, tôi đã tìm thấy giai đoạn thực thi với thời gian thực hiện lớn (> 10h, khi thời gian thông thường ~ 30 giây). Giai đoạn có nhiều tác vụ thất bại với lỗi Resubmitted (resubmitted due to lost executor)
. Có người thi hành có địa chỉ CANNOT FIND ADDRESS
trong mục Aggregated Metrics by Executor
trong trang giai đoạn. Spark cố gắng gửi lại tác vụ này vô hạn. Nếu tôi giết giai đoạn này (ứng dụng của tôi sẽ tự động chạy lại các công việc spark chưa hoàn thành), tất cả sẽ tiếp tục hoạt động tốt.Ứng dụng Spark giết chết người thi hành
Ngoài ra, tôi đã tìm thấy một số mục lạ trong nhật ký tia lửa (cùng thời gian như bắt đầu thực hiện giai đoạn).
Master:
16/11/19 19:04:32 INFO Master: Application app-20161109161724-0045 requests to kill executors: 0
16/11/19 19:04:36 INFO Master: Launching executor app-20161109161724-0045/1 on worker worker-20161108150133
16/11/19 19:05:03 WARN Master: Got status update for unknown executor app-20161109161724-0045/0
16/11/25 10:05:46 INFO Master: Application app-20161109161724-0045 requests to kill executors: 1
16/11/25 10:05:48 INFO Master: Launching executor app-20161109161724-0045/2 on worker worker-20161108150133
16/11/25 10:06:14 WARN Master: Got status update for unknown executor app-20161109161724-0045/1
Worker:
16/11/25 10:06:05 INFO Worker: Asked to kill executor app-20161109161724-0045/1
16/11/25 10:06:08 INFO ExecutorRunner: Runner thread for executor app-20161109161724-0045/1 interrupted
16/11/25 10:06:08 INFO ExecutorRunner: Killing process!
16/11/25 10:06:13 INFO Worker: Executor app-20161109161724-0045/1 finished with state KILLED exitStatus 137
16/11/25 10:06:14 INFO Worker: Asked to launch executor app-20161109161724-0045/2 for app.jar
16/11/25 10:06:17 INFO SecurityManager: Changing view acls to: spark
16/11/25 10:06:17 INFO SecurityManager: Changing modify acls to: spark
16/11/25 10:06:17 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(spark); users with modify permissions: Set(spark)
Không có vấn đề với kết nối mạng vì công nhân, thạc sĩ (bản ghi ở trên), lái xe chạy trên cùng một máy.
Spark phiên bản 1.6.1
Bạn có thể thêm nhật ký của nhân viên gây ra sự cố không? Một nhân viên có thể bị giết trong trường hợp một nhiệm vụ thất bại số lần. Có bất kỳ trường hợp ngoại lệ nào xảy ra không? –
@YuvalItzchakov công nhân đăng nhập vào nhật ký pos từ công nhân bị mất thi hành. Không có ngoại lệ và không thành công trước khi người thực thi bị mất. – Cortwave
* "công nhân đăng nhập pos - nhật ký từ công nhân bị mất thi hành" * Không chắc chắn điều đó nghĩa là gì –