7

Gần đây tôi đã đọc rất nhiều về Q-learning với mạng nơron và suy nghĩ về việc cập nhật hệ thống tối ưu hóa cũ hiện có trong nồi hơi nhà máy điện bao gồm nguồn cấp dữ liệu đơn giản- mạng nơ-ron phía trước xấp xỉ một đầu ra từ nhiều đầu vào cảm giác. Đầu ra sau đó được liên kết với một bộ điều khiển dựa trên mô hình tuyến tính mà bằng cách nào đó lại xuất ra một hành động tối ưu để toàn bộ mô hình có thể hội tụ thành một mục tiêu mong muốn.Cập nhật hệ thống cũ để Q-learning với mạng nơron

Xác định các mô hình tuyến tính là một nhiệm vụ tiêu thụ. Tôi đã nghĩ về việc tân trang lại toàn bộ thứ để học Q-learning miễn phí với một mạng Neural xấp xỉ của hàm Q. Tôi vẽ một sơ đồ để hỏi bạn có đang đi đúng hướng hay không.

model

Câu hỏi của tôi: nếu bạn nghĩ rằng tôi hiểu rõ các khái niệm, tập huấn luyện của tôi nên được bao gồm State Features vectors từ một phía và Q_target - Q_current (ở đây tôi giả sử có một phần thưởng tăng) để buộc các toàn bộ mô hình hướng tới mục tiêu hoặc tôi thiếu cái gì đó?

Lưu ý: Biểu đồ cho thấy sự so sánh giữa hệ thống cũ ở phần trên và thay đổi được đề xuất của tôi ở phần dưới.

CHỈNH SỬA: Mạng neural của tiểu bang có đảm bảo trải nghiệm phát lại không?

Trả lời

1

Bạn có thể chỉ sử dụng tất cả giá trị Q của tất cả các hành động trong trạng thái hiện tại làm lớp đầu ra trong mạng của bạn. Biểu đồ được vẽ kém là here

Do đó, bạn có thể tận dụng khả năng xuất nhiều giá trị Q cùng lúc của NN. Sau đó, chỉ cần lùi lại bằng cách sử dụng tổn thất có nguồn gốc từ Q(s, a) <- Q(s, a) + alpha * (reward + discount * max(Q(s', a')) - Q(s, a), trong đó max(Q(s', a')) có thể được tính toán dễ dàng từ lớp đầu ra.

Vui lòng cho tôi biết nếu bạn có thêm câu hỏi.

Các vấn đề liên quan