16

Tôi đang cố gắng tìm hiểu các chuyển động của chuột cần thiết để thực hiện tốt nhất một số nhiệm vụ trong cài đặt học tăng cường (tức là tín hiệu thưởng là phản hồi duy nhất cho học tập).Tổng quát Q-learning để làm việc với một không gian * hành động * liên tục

Tôi hy vọng sẽ sử dụng kỹ thuật Q-learning, nhưng trong khi tôi đã tìm thấy a way to extend this method to continuous state spaces, tôi dường như không thể tìm ra cách để giải quyết vấn đề với không gian tác vụ liên tục.

Tôi chỉ có thể buộc tất cả chuyển động của chuột có độ lớn nhất định và chỉ với một số hướng nhất định, nhưng cách hợp lý để thực hiện hành động rời rạc sẽ mang lại một không gian hành động rất lớn. Vì Q-learning chuẩn yêu cầu tác nhân đánh giá tất cả các hành động có thể là, một phép tính gần đúng không giải quyết được vấn đề theo bất kỳ ý nghĩa thực tế nào.

Trả lời

7

Cách phổ biến để giải quyết vấn đề này là với actor-critic methods. Những tự nhiên mở rộng đến không gian hành động liên tục. Q-learning cơ bản có thể phân kỳ khi làm việc với xấp xỉ, tuy nhiên, nếu bạn vẫn muốn sử dụng nó, bạn có thể thử kết hợp nó với một bản đồ tự tổ chức, như được thực hiện trong "Applications of the self-organising map to reinforcement learning". Bài báo cũng chứa một số tài liệu tham khảo thêm bạn có thể thấy hữu ích.

+0

Ồ, cả hai âm thanh đều phát ra âm thanh. Tôi sẽ kiểm tra chúng và chấp nhận câu trả lời của bạn nếu chúng hoạt động như tôi mong đợi. – zergylord

3

Đối với những gì bạn đang làm, tôi không tin rằng bạn cần phải làm việc trong không gian hành động liên tục. Mặc dù chuột vật lý di chuyển trong không gian liên tục, nhưng con trỏ chỉ di chuyển theo các bước riêng biệt (thường ở mức pixel), do đó, việc nhận được bất kỳ độ chính xác nào trên ngưỡng này có vẻ như sẽ không ảnh hưởng đến hiệu suất của tác nhân. Không gian nhà nước vẫn còn khá lớn, nhưng nó là hữu hạn và rời rạc.

+0

Điều này giới thiệu vấn đề tôi đã đề cập liên quan đến các xấp xỉ rời rạc (mặc dù tôi nhận ra tên miền của mình là rời rạc về mặt kỹ thuật để bắt đầu), đó là không thể nghĩ ra mọi cặp phối hợp có thể là một hành động có thể. – zergylord

+0

Tôi đồng ý với @templatetypedef. Bạn có thể sử dụng các hành động rời rạc với một không gian trạng thái liên tục. Các hành động rời rạc tốt hơn nhiều để làm việc. – danelliottster

9

Có nhiều cách để mở rộng việc học tăng cường cho các hành động liên tục. Một cách là sử dụng các phương pháp diễn viên-nhà phê bình. Một cách khác là sử dụng các phương thức gradient chính sách.

Một lời giải thích khá rộng rãi của phương pháp khác nhau có thể được tìm thấy trong các giấy tờ sau đây, trong đó có sẵn trực tuyến: Reinforcement Learning in Continuous State and Action Spaces

+1

Các phương pháp diễn viên – phê bình là một loại phương pháp gradient chính sách. Các diễn viên, được tham số hóa, thực hiện chính sách, và các tham số được chuyển theo hướng của gradient của hiệu suất của diễn viên, được ước tính bởi các nhà phê bình. – HelloGoodbye

+0

Liên kết đã cho bị hỏng ngay bây giờ. –

+0

Liên kết bị hỏng nói "phức tạp", vì vậy có thể đây là liên kết: http://oai.cwi.nl/oai/asset/19689/19689B.pdf – dasWesen

11

Nhanh chóng chuyển tiếp đến năm nay, folks từ DeepMind đề xuất một cốt sâu tìm hiểu phương pháp diễn viên-nhà phê bình đối phó với cả không gian hành động và trạng thái liên tục. Nó dựa trên một kỹ thuật được gọi là gradient chính sách xác định. Xem giấy Continuous control with deep reinforcement learning và một số implementations.

+4

Vâng, chúng đã thực sự được phổ biến tăng cường học tập - bây giờ có khá một vài cách để xử lý các hành động liên tục! Điều tôi thích nhất là Q-learning với các chức năng lợi dụng chuẩn hóa, vì cùng một thuật toán q-learning tại trung tâm của nó.Nó chỉ buộc các giá trị hành động là một dạng bậc hai, từ đó bạn có thể nhận được hành động tham lam một cách phân tích. https://arxiv.org/pdf/1603.00748.pdf – zergylord

+0

Bạn cũng sẽ muốn kiểm tra giấy Atari https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf – Shaun

+0

Điều này thật tuyệt vời. Cảm ơn bạn. –

Các vấn đề liên quan