2016-08-24 16 views
10

Tôi đang sử dụng gvidia GTX1080 (8GB) để chạy Inception model trên lưu lượng, khi tôi đặt batch_size = 16 và image_size = 400, thì sau khi tôi bắt đầu chương trình, ubuntu14 của tôi. 04 sẽ tự động khởi động lại.tự động khởi động lại hệ thống khi mô hình tensorflow quá lớn

+0

Bạn có thể muốn thêm giá trị của batch_size và image_size có vẻ như gây ra sự cố để nhận câu trả lời có liên quan. – fvu

+0

cấu hình hệ thống là gì? – titus

+0

tensorflow là nghĩa vụ phải ném một lỗi Out Of Memory, không khởi động lại hệ thống. – suiyuan2009

Trả lời

1

Đảm bảo rằng đây không phải là sự cố đơn vị cung cấp điện. Tôi đã quan sát những lần khởi động lạ thường xuyên trên máy phát triển của mình. Khi tôi tăng kích thước của đầu vào (kích thước hàng loạt, NN lớn hơn) tốc độ khởi động lại cũng tăng lên. Hóa ra là một vấn đề PSU. Kiểm tra nhanh là giới hạn mức tiêu thụ điện năng GPU và xem liệu hành vi này có biến mất hay không. Ví dụ: bạn có thể giới hạn công suất tới khoảng 150 watt bằng lệnh này (bạn sẽ cần quyền sudo):

sudo nvidia-smi -pl 150 
0

Tôi đã theo dõi sự cố xuống nguồn điện bị lỗi. Nó có đủ dung lượng theo thông số kỹ thuật và hạn chế tiêu thụ điện năng GPU bằng cách chạy "nvidia-smi -pl 150" không giúp gì cả. Có lẽ nó không thể xử lý các vụ nổ trong tiêu thụ điện năng.
Dù sao, sau khi tôi thay đổi nguồn điện từ "Corsair CX750 Builder Series ATX 80 PLUS" thành "Cooler Master V1000", sự cố đã biến mất. Xem chi tiết về điều tra của tôi trong số TensorFlow GitHub issue.

0

Thay đổi cài đặt nguồn GPU sẽ hoạt động, nếu bạn có PSU đủ công suất (WATTS). Tôi đã hạn chế sức mạnh của GPU (TITANX) tối đa. 200 WATTS sử dụng,

sudo nvidia-smi -pl 200 

LƯU Ý: Mỗi GPU có giới hạn về nguồn, ví dụ: Giới hạn công suất của TITANX là từ 125W đến 300W. Vì vậy, hãy đảm bảo cung cấp giá trị giữa các giới hạn đó.

Các vấn đề liên quan