Tôi đang trong quá trình phát triển thực hiện Q-Learning đơn giản qua một ứng dụng tầm thường, nhưng có điều gì đó khiến tôi khó hiểu . Hãy xem xét việc xây dựng tiêu chuẩn của Q-Learning Q(S, A) = Q(
Tôi đang cố gắng tìm hiểu các chuyển động của chuột cần thiết để thực hiện tốt nhất một số nhiệm vụ trong cài đặt học tăng cường (tức là tín hiệu thưởng là phản hồi duy nhất cho học tập). Tôi hy vọng
Tôi cố gắng làm quen với Q-learning và Deep Neural Networks, hiện đang cố gắng triển khai Playing Atari with Deep Reinforcement Learning. Để kiểm tra triển khai của tôi và chơi với nó, tôi đã cố gắng
EDIT (1/3/16): corresponding github issue Tôi đang sử dụng Tensorflow (giao diện Python) để thực hiện tác nhân q-learning với chức năng xấp xỉ được đào tạo bằng cách sử dụng stochastic gradient-descen
tôi đã thực hiện Q-Learning như mô tả trong, http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf Để xấp xỉ. Q (S, A) Tôi sử dụng một cấu trúc mạng thần kinh như sau, kích hoạt sigm