Tôi biết những kiến thức cơ bản về mạng nơron và làm cách nào để đào tạo chúng bằng thuật toán backpropagation, nhưng tôi đang tìm một thuật toán hơn tôi có thể sử dụng để đào tạo ANN trực tuyến.Đào tạo mạng nơ-ron với sự tăng cường học tập
Ví dụ: sự cố cart pole swing up là sự cố tôi muốn giải quyết bằng ANN. Trong trường hợp đó, tôi không biết phải làm gì để kiểm soát con lắc, tôi chỉ biết tôi ở vị trí lý tưởng đến mức nào. Tôi cần phải có ANN học dựa trên phần thưởng và hình phạt. Do đó, học tập được giám sát không phải là một lựa chọn.
Tình huống khác giống như snake game, nơi phản hồi bị trì hoãn và giới hạn đối với mục tiêu và mục tiêu chống thay vì phần thưởng.
Tôi có thể nghĩ ra một số thuật toán cho tình huống đầu tiên, như thuật toán leo núi hoặc thuật toán di truyền, nhưng tôi đoán cả hai sẽ chậm. Chúng cũng có thể được áp dụng trong kịch bản thứ hai, nhưng cực kỳ chậm và không có lợi cho việc học trực tuyến.
Câu hỏi của tôi rất đơn giản: Có một thuật toán đơn giản để đào tạo mạng nơron nhân tạo với việc học tăng cường không? Tôi chủ yếu quan tâm đến các tình huống phần thưởng theo thời gian thực, nhưng nếu một thuật toán cho các tình huống dựa trên mục tiêu có sẵn, thậm chí tốt hơn.
Câu hỏi hay và tôi đang nghĩ gần như chính xác điều tương tự, trong trường hợp của tôi mạng thần kinh đang tái diễn. Một điểm mấu chốt là bạn đang nói về 2 thuật toán học tập khác nhau. Bạn không thể áp dụng 2 thuật toán học tập khác nhau cho cùng một vấn đề mà không gây xung đột, trừ khi bạn có cách để giải quyết chúng. –