技术栈
reinforce 算法
勾股导航
22 天前
人工智能
·
强化学习
·
reinforce 算法
REINFORCE算法
1.算法描述REINFORCE 算法是基于蒙特卡洛采样的无模型策略梯度方法,由 Williams 于 1992 年提出。其核心思想是:利用完整轨迹采样得到的未来累积回报 Gt 加权策略梯度,优化策略参数;通过增大高回报轨迹中动作的概率、降低低回报轨迹中动作的概率,从而提升策略性能。
我是有底线的