Sự khác biệt nào với thuật toán mà nó tạo ra có giá trị gamma lớn hay nhỏ? Trong quang của tôi, miễn là nó không phải là 0 hoặc 1, nó sẽ hoạt động giống hệt nhau. Ở phía bên kia, bất cứ gamma nào tôi chọn, có vẻ như Qvalues nhận được khá gần bằng không thực sự nhanh chóng (tôi đang ở đây có giá trị theo thứ tự 10^-300 chỉ trong một bài kiểm tra nhanh). Làm thế nào để mọi người thường âm mưu Qvalues (tôi đang vẽ một (x, y, QValue tốt nhất cho rằng nhà nước) cho rằng vấn đề? Tôi đang cố gắng để có được xung quanh với logarithms nhưng thậm chí sau đó nó cảm thấy kinda vụng về. Tôi không hiểu lý do đằng sau tham số có và alpha trong hàm Q Learning update là gì. Về cơ bản nó đặt độ lớn của bản cập nhật chúng ta sẽ thực hiện cho hàm Q giá trị. Tôi có ý tưởng rằng nó thường bị giảm Thời gian cập nhật ban đầu sẽ có tầm quan trọng hơn 1000 tập sau?Tham số Alpha và Gamma trong QLearning
Ngoài ra, tôi đã nghĩ rằng nên khám phá không gian trạng thái mỗi khi tác nhân không muốn thực hiện hành động tham lam sẽ là khám phá bất kỳ trạng thái nào vẫn còn o QValue (điều này có nghĩa là, ít nhất là hầu hết thời gian, một trạng thái chưa từng được thực hiện), nhưng tôi không thấy điều đó được nhắc đến trong bất kỳ tài liệu nào. Có bất kỳ nhược điểm nào đối với điều này không? Tôi biết điều này không thể được sử dụng với (ít nhất một số) chức năng khái quát hóa.
Ý tưởng khác là giữ bảng trạng thái/hành động đã ghé thăm và cố gắng thực hiện các hành động đã được thử ít lần hơn trước đó ở trạng thái đó. Tất nhiên điều này chỉ có thể được thực hiện trong không gian trạng thái tương đối nhỏ (trong trường hợp của tôi nó là chắc chắn có thể). Một ý tưởng thứ ba cho quá trình thăm dò trễ sẽ là tìm kiếm không chỉ hành động được lựa chọn để tìm các qvalues tốt nhất mà còn nhìn vào bên trong tất cả các hành động có thể và trạng thái đó, và sau đó ở những trạng thái khác của trạng thái đó và như vậy .
Tôi biết những câu hỏi đó không liên quan nhưng tôi muốn nghe ý kiến của những người đã từng làm việc trước đây và điều này (có thể) đã phải vật lộn với một số người trong số họ.
Chính sách là gì? Vấn đề là gì? Các tiểu bang là gì? Điều gì thúc đẩy công việc? Bạn đã sử dụng mã nào? Bạn có sử dụng vấn đề tham chiếu để hiển thị mã của bạn hoạt động không? – EngrStudent