q-learning

6Nhiệt

3Trả lời

Giá trị Q-Giá trị gia tăng không mong muốn, hậu quả của phần thưởng thường xuyên sau khi lặp lại cùng một hành động trong Q-Learning

Tôi đang trong quá trình phát triển thực hiện Q-Learning đơn giản qua một ứng dụng tầm thường, nhưng có điều gì đó khiến tôi khó hiểu . Hãy xem xét việc xây dựng tiêu chuẩn của Q-Learning Q(S, A) = Q(

16Nhiệt

4Trả lời

Tổng quát Q-learning để làm việc với một không gian * hành động * liên tục

Tôi đang cố gắng tìm hiểu các chuyển động của chuột cần thiết để thực hiện tốt nhất một số nhiệm vụ trong cài đặt học tăng cường (tức là tín hiệu thưởng là phản hồi duy nhất cho học tập). Tôi hy vọng

19Nhiệt

2Trả lời

Tại sao Mạng Deep Q của tôi không làm chủ được Gridworld đơn giản (Tensorflow)? (Cách đánh giá Deep-Q-Net)

Tôi cố gắng làm quen với Q-learning và Deep Neural Networks, hiện đang cố gắng triển khai Playing Atari with Deep Reinforcement Learning. Để kiểm tra triển khai của tôi và chơi với nó, tôi đã cố gắng

13Nhiệt

1Trả lời

Làm thế nào để sử dụng Trình tối ưu hóa Tensorflow mà không cần kích hoạt tính năng lặp lại trong chương trình học tăng cường trả về kiểm soát sau mỗi lần lặp?

EDIT (1/3/16): corresponding github issue Tôi đang sử dụng Tensorflow (giao diện Python) để thực hiện tác nhân q-learning với chức năng xấp xỉ được đào tạo bằng cách sử dụng stochastic gradient-descen

7Nhiệt

1Trả lời

Các câu hỏi về Q-Learning sử dụng Neural Networks

tôi đã thực hiện Q-Learning như mô tả trong, http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf Để xấp xỉ. Q (S, A) Tôi sử dụng một cấu trúc mạng thần kinh như sau, kích hoạt sigm