policy gradient

机器学习之策略梯度策略梯度（Policy Gradient）方法是强化学习中的一类重要算法，其核心思想是直接对策略参数进行优化，而不是通过值函数间接优化策略。与基于值的方法（如Q-Learning、DQN）不同，策略梯度方法可以直接处理连续动作空间，并且能够学习随机策略。

爱听歌的周童鞋

斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Assignment 5: GRPO本篇文章记录 CS336 作业 Assignment 5: Alignment 中的 GRPO 作业要求，仅供自己参考😄

爱听歌的周童鞋

斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Lecture 17: Alignment - RL 2学习斯坦福的 CS336 课程，本篇文章记录课程第十七讲：对齐 - RL（下），记录下个人学习笔记，仅供自己参考😄

VPG算法首先来看经典的策略梯度REINFORCE算法：在REINFORCE中，每次采集一个episode的轨迹，计算每一步动作的回报 G t G_t Gt，与动作概率对数相乘，作为误差反向传播，有以下几个特点：

我是有底线的