PPO到GRPO自己话总结

laplace01232026-01-26 11:45

==**通俗易懂的来说**==

PPO的总体流程就是用policy model（训练的模型）去生成样本组，然后计算奖励V，用v去计算advantage，然后去更新policy和value

\[Agentic RL和RLHF区别是什么？\]

他主要有四个模型

1、policy model（待训练的模型）

2、reference model （被冻结的老模型）

3、reward model 打分模型

4、value model 估分基准模型

==**advantage=reward-value，如果是多步的（即中间有reward的，即用累计的reward-value）**==

然后GRPO是对PPO的一种简化方法，他不需要value model，使用组内相对奖励代替绝对奖励，取代了V

理论上只需要 Policy Model 和 Reference Model;

那他怎么算reward，如果有真值答案，那直接真值判分

也可以用llm as judge，看具体情况

PPO的问题就是太依赖老师的value能力，这个value很有可能不准

而GRPO一次生成多条样本，只进行相对比较，用均值（或者别的）作为PPO里面的value

然后再拿reward减去group_mean_reward

GRPO 的训练循环包括以下步骤:

**采样阶段**:对于每个问题，使用当前策略生成多个答案(`num_generations`个)。这些答案构成一个"组"，用于计算相对奖励。
**奖励计算**:对每个生成的答案计算奖励 𝑟𝑖ri。奖励可以是准确率、长度惩罚、步骤奖励或它们的组合。
**相对奖励**:计算组内平均奖励 𝑟ˉ=1𝑁∑𝑖=1𝑁𝑟𝑖rˉ=N1∑i=1Nri，然后计算相对奖励 𝑟^𝑖=𝑟𝑖−𝑟ˉr^i=ri−rˉ。这样做的好处是减少奖励方差，使训练更稳定。
**策略更新**:使用相对奖励更新策略，同时添加 KL 散度惩罚，防止策略偏离参考模型太远。
**重复**:重复上述步骤，直到完成所有训练轮次。