Tôi đã triển khai thuật toán lặp giá trị cho quy trình quyết định đơn giản Markov Wikipedia bằng Python. Để giữ cho cơ cấu (tiểu bang, hành động, hiệu ứng chuyển, khen thưởng) của quá trình Markov nói riêng và lặp trên nó Tôi đã sử dụng các cấu trúc dữ liệu sau:Cấu trúc dữ liệu cho Quy trình Quyết định Markov
từ điển cho tiểu bang và hành động mà có sẵn cho những khẳng định:
SA = { 'state A': {' action 1', 'action 2', ..}, ...}
từ điển cho xác suất chuyển đổi:
T = {('state A', 'action 1'): {'state B': probability}, ...}
từ điển cho phần thưởng:
R = {('state A', 'action 1'): {'state B': reward}, ...}
.
Câu hỏi của tôi là: đây có phải là cách tiếp cận phù hợp không? Cấu trúc dữ liệu thích hợp nhất (bằng Python) cho MDP là gì?
Cảm ơn bạn rất nhiều vì nhận xét của bạn. Tôi sẽ xem xét cách tiếp cận của bạn ít nhất trong trường hợp MDP phức tạp hơn để giải quyết. – JackAW