easyrl - easyrl技术,学习,经验文章

几度热忱

2 年前

【Easy RL】Easy RL蘑菇书全书学习笔记强化学习研究的问题是智能体与环境交互的问题智能体与环境：图 1.12 左边的智能体一直在与图 1.12 右边的环境进行交互。智能体把它的动作输出给环境，环境取得这个动作后会进行下一步，把下一步的观测与这个动作带来的奖励返还给智能体。这样的交互会产生很多观测，智能体的目的是从这些观测之中学到能最大化奖励的策略