技术栈
easyrl
几度热忱
1 个月前
笔记
·
学习
·
easyrl
【Easy RL】Easy RL蘑菇书全书学习笔记
强化学习研究的问题是智能体与环境交互的问题智能体与环境:图 1.12 左边的智能体一直在与图 1.12 右边的环境进行交互。智能体把它的动作输出给环境,环境取得这个动作后会进行下一步,把下一步的观测与这个动作带来的奖励返还给智能体。这样的交互会产生很多观测,智能体的目的是从这些观测之中学到能最大化奖励的策略