actor-critic

动手学强化学习上交张伟楠（一）导论 + 多臂老虎机 MAB（ε-greedy+上置信界+汤普森采样）B站视频网页版教材强化学习导论与多臂老虎机（MAB）核心内容。导论部分梳理了价值学习、策略学习及 actor-critic 三种架构，阐述深度强化学习的参数化优势与前沿研究方向；

强化学习入门-3(AC)本环境是OpenAI Gym提供的一个经典控制环境。官网链接：https://gymnasium.farama.org/environments/classic_control/cart_pole/

VPG算法首先来看经典的策略梯度REINFORCE算法：在REINFORCE中，每次采集一个episode的轨迹，计算每一步动作的回报 G t G_t Gt，与动作概率对数相乘，作为误差反向传播，有以下几个特点：

我是有底线的