Gần đây tôi đã đọc rất nhiều về Q-learning với mạng nơron và suy nghĩ về việc cập nhật hệ thống tối ưu hóa cũ hiện có trong nồi hơi nhà máy điện bao gồm nguồn cấp dữ liệu đơn giản- mạng nơ-ron phía trước xấp xỉ một đầu ra từ nhiều đầu vào cảm giác. Đầu ra sau đó được liên kết với một bộ điều khiển dựa trên mô hình tuyến tính mà bằng cách nào đó lại xuất ra một hành động tối ưu để toàn bộ mô hình có thể hội tụ thành một mục tiêu mong muốn.Cập nhật hệ thống cũ để Q-learning với mạng nơron
Xác định các mô hình tuyến tính là một nhiệm vụ tiêu thụ. Tôi đã nghĩ về việc tân trang lại toàn bộ thứ để học Q-learning miễn phí với một mạng Neural xấp xỉ của hàm Q. Tôi vẽ một sơ đồ để hỏi bạn có đang đi đúng hướng hay không.
Câu hỏi của tôi: nếu bạn nghĩ rằng tôi hiểu rõ các khái niệm, tập huấn luyện của tôi nên được bao gồm State Features vectors
từ một phía và Q_target - Q_current
(ở đây tôi giả sử có một phần thưởng tăng) để buộc các toàn bộ mô hình hướng tới mục tiêu hoặc tôi thiếu cái gì đó?
Lưu ý: Biểu đồ cho thấy sự so sánh giữa hệ thống cũ ở phần trên và thay đổi được đề xuất của tôi ở phần dưới.
CHỈNH SỬA: Mạng neural của tiểu bang có đảm bảo trải nghiệm phát lại không?