Tôi đang xem xét triển khai SARSA-Lambda này (Ie: SARSA với dấu vết đủ điều kiện) và có một chi tiết mà tôi vẫn chưa nhận được.Bắt đầu lại việc khởi tạo lại dữ kiện giữa các tập trong triển khai SARSA-Lambda
(Hình ảnh từ http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html)
Vì vậy, tôi hiểu rằng tất cả Q (s, a) được cập nhật chứ không phải chỉ là một trong những đại lý đã chọn cho thời gian bước nhất định. Tôi cũng hiểu rằng ma trận E không được đặt lại ở đầu mỗi tập.
Giả sử trong một phút mà bảng 3 Hình 7.12 là kết thúc trạng thái của tập 1.
Khi bắt đầu tập 2, các đại lý di chuyển về phía bắc thay vì phía đông, và chúng ta hãy giả định này mang lại cho nó một phần thưởng là -500. Điều này sẽ không ảnh hưởng đến tất cả các trạng thái đã được truy cập trong tập trước?
Nếu ý tưởng là thưởng cho các trạng thái đã được truy cập trong tập hiện tại, thì tại sao ma trận không chứa tất cả giá trị e (s, a) đặt lại ở đầu mỗi tập? Nó chỉ có vẻ như với tình trạng thực hiện này đã được truy cập trong tập trước được 'trừng phạt' hoặc 'khen thưởng' cho hành động được thực hiện bởi các đại lý trong tập phim mới này.
Điều đó có ý nghĩa hoàn hảo, cảm ơn! – MrD