reinforce 算法 - reinforce 算法技术,学习,经验文章

勾股导航

2 个月前

REINFORCE算法1.算法描述REINFORCE 算法是基于蒙特卡洛采样的无模型策略梯度方法，由 Williams 于 1992 年提出。其核心思想是：利用完整轨迹采样得到的未来累积回报 Gt 加权策略梯度，优化策略参数；通过增大高回报轨迹中动作的概率、降低低回报轨迹中动作的概率，从而提升策略性能。