技术栈
policy gradient
红烧code
2 年前
强化学习
·
policy gradient
·
actor-critic
VPG算法
首先来看经典的策略梯度REINFORCE算法:在REINFORCE中,每次采集一个episode的轨迹,计算每一步动作的回报 G t G_t Gt,与动作概率对数相乘,作为误差反向传播,有以下几个特点: