Tại sao chúng ta cần phải làm không gradients một cách rõ ràng trong pytorch. Tại sao không thể tô đậm độ dốc khi gọi loss.backward()
. Kịch bản nào được phân phát bằng cách giữ cho các gradient trên biểu đồ và yêu cầu người dùng rõ ràng là không có các gradient?Tại sao chúng ta cần gọi zero_grad() trên trình tối ưu hóa một cách rõ ràng?
Tôi đang tìm kiếm giải thích tốt.
tôi không nhận được phần đầu tiên của câu trả lời của bạn! là bạn đang cố gắng để nói nếu gradients được zeroed ra trong loss.backward() gọi, sau đó optimizer.step() sẽ không nhận được gradient được cập nhật? –
@WasiAhmad hi, 'optimizer.step()' được tách biệt với 'loss.backward()', nếu chúng ta lấy 0 gradient ở phía sau, chúng ta có thể lấy gradient như thế nào? – danche
Tôi hiểu rằng, đó là lý do tại sao yêu cầu bạn xác nhận vì câu trả lời của bạn rất ngắn. khi bạn trả lời câu hỏi, hãy cố gắng ngắn gọn để giúp người khác trong tương lai. –