5

Các Wikipedia page for backpropagation có tuyên bố này:làm thế nào là backpropagation giống nhau (hoặc không) như sự khác biệt tự động đảo ngược?

Thuật toán lan truyền ngược để tính một gradient đã tái phát hiện một số lần, và là một trường hợp đặc biệt của một hơn kỹ thuật nói chung được gọi là sự khác biệt tự động trong điều ngược lại chế độ tích lũy .

Ai đó có thể giải thích về vấn đề này không? Chức năng được phân biệt là gì? "Trường hợp đặc biệt" là gì? Có phải chính các giá trị của các giá trị được sử dụng hoặc gradient cuối cùng?

Trả lời

5

Trong đào tạo mạng Neural, chúng tôi muốn tìm một tập hợp các trọng số w để giảm thiểu lỗi E(N(w,x)-y). (x là đầu vào đào tạo, y là đầu ra đào tạo, N là mạng và E là một số chức năng lỗi).

Cách tiêu chuẩn để thực hiện tối ưu hóa như thế này, là độ dốc gốc, sử dụng đạo hàm của mạng, N' nói. Chúng ta có thể đại diện cho mạng như một sản phẩm ma trận và làm điều này bằng tay với phép tính ma trận, nhưng chúng ta cũng có thể viết các thuật toán (tự động).

Backpropagation là một thuật toán đặc biệt, có một số lợi thế nhất định. Ví dụ nó làm cho nó dễ dàng để lấy đạo hàm chỉ đối với một mẫu trọng lượng được chọn, vì nó là cần thiết cho stochastic gradient descent. Nó cũng xác định cách thức chuyển tiếp (giá trị mạng thực) được lưu để chúng có thể truy cập dễ dàng để tính toán các dẫn xuất cần thiết.

Bạn sẽ có thể tìm mã chính xác cho thuật toán cụ thể trong sách giáo khoa cũng như trực tuyến.

Các vấn đề liên quan