Tôi đang cố gắng tìm hiểu các chuyển động của chuột cần thiết để thực hiện tốt nhất một số nhiệm vụ trong cài đặt học tăng cường (tức là tín hiệu thưởng là phản hồi duy nhất cho học tập).Tổng quát Q-learning để làm việc với một không gian * hành động * liên tục
Tôi hy vọng sẽ sử dụng kỹ thuật Q-learning, nhưng trong khi tôi đã tìm thấy a way to extend this method to continuous state spaces, tôi dường như không thể tìm ra cách để giải quyết vấn đề với không gian tác vụ liên tục.
Tôi chỉ có thể buộc tất cả chuyển động của chuột có độ lớn nhất định và chỉ với một số hướng nhất định, nhưng cách hợp lý để thực hiện hành động rời rạc sẽ mang lại một không gian hành động rất lớn. Vì Q-learning chuẩn yêu cầu tác nhân đánh giá tất cả các hành động có thể là, một phép tính gần đúng không giải quyết được vấn đề theo bất kỳ ý nghĩa thực tế nào.
Ồ, cả hai âm thanh đều phát ra âm thanh. Tôi sẽ kiểm tra chúng và chấp nhận câu trả lời của bạn nếu chúng hoạt động như tôi mong đợi. – zergylord