2015-04-27 12 views
12

Tôi đang xem xét triển khai SARSA-Lambda này (Ie: SARSA với dấu vết đủ điều kiện) và có một chi tiết mà tôi vẫn chưa nhận được.Bắt đầu lại việc khởi tạo lại dữ kiện giữa các tập trong triển khai SARSA-Lambda

enter image description here

(Hình ảnh từ http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html)

Vì vậy, tôi hiểu rằng tất cả Q (s, a) được cập nhật chứ không phải chỉ là một trong những đại lý đã chọn cho thời gian bước nhất định. Tôi cũng hiểu rằng ma trận E không được đặt lại ở đầu mỗi tập.

Giả sử trong một phút mà bảng 3 Hình 7.12 là kết thúc trạng thái của tập 1.

Khi bắt đầu tập 2, các đại lý di chuyển về phía bắc thay vì phía đông, và chúng ta hãy giả định này mang lại cho nó một phần thưởng là -500. Điều này sẽ không ảnh hưởng đến tất cả các trạng thái đã được truy cập trong tập trước?

Nếu ý tưởng là thưởng cho các trạng thái đã được truy cập trong tập hiện tại, thì tại sao ma trận không chứa tất cả giá trị e (s, a) đặt lại ở đầu mỗi tập? Nó chỉ có vẻ như với tình trạng thực hiện này đã được truy cập trong tập trước được 'trừng phạt' hoặc 'khen thưởng' cho hành động được thực hiện bởi các đại lý trong tập phim mới này.

Trả lời

15

Tôi đồng ý với bạn 100%. Không đặt lại ma trận điện tử vào đầu mỗi tập có chính xác các vấn đề mà bạn mô tả. Theo như tôi có thể biết, đây là lỗi trong mã giả. Tham chiếu mà bạn trích dẫn rất phổ biến, vì vậy lỗi đã được truyền đến nhiều tài liệu tham khảo khác. Tuy nhiên, this well-cited paper rất rõ ràng rằng e-matrix nên được reinitialized giữa tập:

Các dấu vết đủ điều kiện được khởi tạo không, và trong nhiệm vụ nhiều tập họ đang reinitialized bằng không sau mỗi tập phim.

Như thêm bằng chứng, các phương pháp this paper:

Các dấu vết, e, được đặt thành 0 ở đầu mỗi tập phim.

và chú thích # 3 từ this paper:

... dấu vết đủ điều kiện được thiết lập lại để zero vào lúc bắt đầu của mỗi thử nghiệm.

đề xuất rằng đây là thực tế phổ biến, vì cả hai đều đề cập đến việc khởi tạo lại giữa các tập. Tôi hy vọng rằng có rất nhiều ví dụ như vậy.

Trong thực tế, nhiều công dụng của thuật toán này không liên quan đến nhiều tập, hoặc có các tập dài như vậy liên quan đến tỷ lệ phân rã của chúng mà điều này không phải là vấn đề. Tôi hy vọng đó là lý do tại sao nó chưa được làm rõ một cách rõ ràng ở đâu đó trên internet.

+0

Điều đó có ý nghĩa hoàn hảo, cảm ơn! – MrD

Các vấn đề liên quan