5

Sự khác biệt nào với thuật toán mà nó tạo ra có giá trị gamma lớn hay nhỏ? Trong quang của tôi, miễn là nó không phải là 0 hoặc 1, nó sẽ hoạt động giống hệt nhau. Ở phía bên kia, bất cứ gamma nào tôi chọn, có vẻ như Qvalues ​​nhận được khá gần bằng không thực sự nhanh chóng (tôi đang ở đây có giá trị theo thứ tự 10^-300 chỉ trong một bài kiểm tra nhanh). Làm thế nào để mọi người thường âm mưu Qvalues ​​(tôi đang vẽ một (x, y, QValue tốt nhất cho rằng nhà nước) cho rằng vấn đề? Tôi đang cố gắng để có được xung quanh với logarithms nhưng thậm chí sau đó nó cảm thấy kinda vụng về. Tôi không hiểu lý do đằng sau tham số có và alpha trong hàm Q Learning update là gì. Về cơ bản nó đặt độ lớn của bản cập nhật chúng ta sẽ thực hiện cho hàm Q giá trị. Tôi có ý tưởng rằng nó thường bị giảm Thời gian cập nhật ban đầu sẽ có tầm quan trọng hơn 1000 tập sau?Tham số Alpha và Gamma trong QLearning

Ngoài ra, tôi đã nghĩ rằng nên khám phá không gian trạng thái mỗi khi tác nhân không muốn thực hiện hành động tham lam sẽ là khám phá bất kỳ trạng thái nào vẫn còn o QValue (điều này có nghĩa là, ít nhất là hầu hết thời gian, một trạng thái chưa từng được thực hiện), nhưng tôi không thấy điều đó được nhắc đến trong bất kỳ tài liệu nào. Có bất kỳ nhược điểm nào đối với điều này không? Tôi biết điều này không thể được sử dụng với (ít nhất một số) chức năng khái quát hóa.

Ý tưởng khác là giữ bảng trạng thái/hành động đã ghé thăm và cố gắng thực hiện các hành động đã được thử ít lần hơn trước đó ở trạng thái đó. Tất nhiên điều này chỉ có thể được thực hiện trong không gian trạng thái tương đối nhỏ (trong trường hợp của tôi nó là chắc chắn có thể). Một ý tưởng thứ ba cho quá trình thăm dò trễ sẽ là tìm kiếm không chỉ hành động được lựa chọn để tìm các qvalues ​​tốt nhất mà còn nhìn vào bên trong tất cả các hành động có thể và trạng thái đó, và sau đó ở những trạng thái khác của trạng thái đó và như vậy .

Tôi biết những câu hỏi đó không liên quan nhưng tôi muốn nghe ý kiến ​​của những người đã từng làm việc trước đây và điều này (có thể) đã phải vật lộn với một số người trong số họ.

+0

Chính sách là gì? Vấn đề là gì? Các tiểu bang là gì? Điều gì thúc đẩy công việc? Bạn đã sử dụng mã nào? Bạn có sử dụng vấn đề tham chiếu để hiển thị mã của bạn hoạt động không? – EngrStudent

Trả lời

-2

Tôi chưa từng làm việc với các hệ thống chính xác như thế này trước đây, vì vậy tôi không biết làm thế nào hữu ích tôi có thể, nhưng ...

Gamma là thước đo xu hướng của đại lý để mong được thưởng tương lai . Nó càng nhỏ thì đại lý càng có xu hướng thực hiện hành động với phần thưởng lớn nhất, bất kể trạng thái kết quả là gì. Các đại lý có gamma lớn hơn sẽ học được những con đường dài đến những phần thưởng lớn. Đối với tất cả các giá trị Q gần bằng không, bạn đã thử với một bản đồ trạng thái rất đơn giản (ví dụ, một trạng thái và hai hành động) với gamma = 0? Điều đó sẽ nhanh chóng tiếp cận Q = phần thưởng.

Ý tưởng giảm alpha là làm giảm dao động trong các giá trị Q, sao cho tác nhân có thể ổn định thành mẫu ổn định sau một thanh niên hoang dã.

Khám phá không gian trạng thái? Tại sao không chỉ lặp lại nó, có đại lý thử tất cả mọi thứ? Không có lý do gì để các tác nhân thực sự theo một quá trình hành động trong việc học của nó - trừ khi đó là điểm mô phỏng của bạn. Nếu ý tưởng chỉ là để tìm ra mẫu hành vi tối ưu, hãy điều chỉnh tất cả các Q, không chỉ các mẫu cao nhất dọc theo một đường dẫn.

+0

Điểm trong việc thực hiện Q-Learning không phải là để lặp qua tất cả các không gian. Đó là chính xác để tìm hiểu càng nhanh càng tốt (nghĩa là, có không gian nhà nước khổng lồ, học nhanh như thế nào để khám phá chúng cũng đủ cho một nhiệm vụ nhất định). Nếu ideia đã lặp lại nó, thì tôi sẽ sử dụng một hệ thống tìm kiếm điển hình (hơi thở đầu tiên, tìm kiếm sâu, vv). Ngoài ra, tôi không nhận được điểm thiết lập gamma là 0. Nó sẽ chỉ thực hiện các hành động dẫn đến mục tiêu đang được cập nhật. Tất cả những người khác sẽ bằng không. –

8

Từ một ứng viên gia cố bậc thầy tăng cường:

Alpha là tỷ lệ học tập. Nếu hàm phần thưởng hoặc chuyển tiếp là ngẫu nhiên (ngẫu nhiên), thì alpha sẽ thay đổi theo thời gian, tiến tới 0 ở vô cực. Điều này phải làm với xấp xỉ kết quả mong đợi của một sản phẩm bên trong (T (chuyển tiếp) * R (phần thưởng)), khi một trong hai, hoặc cả hai, có hành vi ngẫu nhiên.

Thực tế đó là điều quan trọng cần lưu ý.

Gamma là giá trị của phần thưởng trong tương lai. Nó có thể ảnh hưởng đến việc học một chút và có thể là một giá trị động hoặc tĩnh. Nếu nó bằng một, tác nhân đánh giá phần thưởng tương lai JUST AS MUCH như phần thưởng hiện tại. Điều này có nghĩa là, trong mười hành động, nếu một tác nhân thực hiện điều gì đó tốt này thì CHỈ LÀ CÓ GIÁ TRỊ khi thực hiện hành động này trực tiếp. Vì vậy, việc học không hoạt động tốt ở các giá trị gamma cao.

Ngược lại, một gamma bằng không sẽ làm cho tác nhân chỉ nhận được phần thưởng ngay lập tức, phần thưởng này chỉ hoạt động với các chức năng phần thưởng rất chi tiết.

Ngoài ra - đối với hành vi thăm dò ... thực sự có TẤN tài liệu về vấn đề này. Tất cả ý tưởng của bạn có, 100%, đã được thử. Tôi khuyên bạn nên tìm kiếm chi tiết hơn và thậm chí bắt đầu googling Lý thuyết quyết định và "Cải thiện chính sách".

Chỉ cần thêm ghi chú trên Alpha: Hãy tưởng tượng bạn có chức năng phần thưởng mà phát ra 1 hoặc bằng 0 cho một kết hợp hành động trạng thái SA nhất định. Bây giờ mỗi khi bạn thực hiện SA, bạn sẽ nhận được 1 hoặc 0. Nếu bạn giữ alpha là 1, bạn sẽ nhận được giá trị Q bằng 1 hoặc 0. Nếu là 0,5, bạn sẽ nhận được giá trị là +0.5 hoặc 0 và hàm sẽ luôn dao động giữa hai giá trị này. Tuy nhiên, nếu mỗi lần bạn giảm alpha xuống 50%, bạn sẽ nhận được các giá trị như thế này. (giả định phần thưởng được nhận là 1,0,1,0, ...). Q-giá trị của bạn sẽ kết thúc, 1,0,5,0,75,0,9,0,8, .... Và cuối cùng sẽ hội tụ loại gần 0,5. Ở vô cực nó sẽ là 0,5, đó là phần thưởng mong đợi theo nghĩa xác suất.

+0

bạn có thể thêm một số liên kết không? – EngrStudent

0

Điều gì khác biệt với thuật toán mà nó tạo ra có giá trị gamma lớn hay nhỏ?

gamma phải tương ứng với kích thước không gian quan sát: bạn nên sử dụng gamma lớn hơn (tức là gần 1) cho không gian trạng thái lớn và gammas nhỏ hơn cho không gian nhỏ hơn.

một cách để suy nghĩ về gamma là nó đại diện cho tỷ lệ phân rã của phần thưởng từ trạng thái cuối cùng, thành công.

Các vấn đề liên quan