PPO到GRPO自己话总结

==**通俗易懂的来说**==

PPO的总体流程就是用policy model(训练的模型)去生成样本组,然后计算奖励V,用v去计算advantage,然后去更新policy和value

\[Agentic RL和RLHF区别是什么?\]

他主要有四个模型

1、policy model(待训练的模型)

2、reference model (被冻结的老模型)

3、reward model 打分模型

4、value model 估分基准模型

==**advantage=reward-value,如果是多步的(即中间有reward的,即用累计的reward-value)**==

然后GRPO是对PPO的一种简化方法,他不需要value model,使用组内相对奖励代替绝对奖励,取代了V

理论上只需要 Policy Model 和 Reference Model;

那他怎么算reward,如果有真值答案,那直接真值判分

也可以用llm as judge,看具体情况

PPO的问题就是太依赖老师的value能力,这个value很有可能不准

而GRPO一次生成多条样本,只进行相对比较,用均值(或者别的)作为PPO里面的value

然后再拿reward减去group_mean_reward

GRPO 的训练循环包括以下步骤:

  1. **采样阶段**:对于每个问题,使用当前策略生成多个答案(`num_generations`个)。这些答案构成一个"组",用于计算相对奖励。

  2. **奖励计算**:对每个生成的答案计算奖励 𝑟𝑖ri​。奖励可以是准确率、长度惩罚、步骤奖励或它们的组合。

  3. **相对奖励**:计算组内平均奖励 𝑟ˉ=1𝑁∑𝑖=1𝑁𝑟𝑖rˉ=N1​∑i=1N​ri​,然后计算相对奖励 𝑟^𝑖=𝑟𝑖−𝑟ˉr^i​=ri​−rˉ。这样做的好处是减少奖励方差,使训练更稳定。

  4. **策略更新**:使用相对奖励更新策略,同时添加 KL 散度惩罚,防止策略偏离参考模型太远。

  5. **重复**:重复上述步骤,直到完成所有训练轮次。

https://mp.weixin.qq.com/s/1phqxsmsDCGm14p4kesKaA

相关推荐
不脱发的程序猿1 分钟前
嵌入式软件工程师,怎么把 AI 工具用顺手?
人工智能·单片机·嵌入式硬件·嵌入式
莞凰5 分钟前
昇腾CANN的“御剑飞行“:ATB仓库探秘
人工智能·flutter·transformer
心中有国也有家17 分钟前
hccl 架构拆解:昇腾集合通信库到底在做什么?
人工智能·经验分享·笔记·分布式·算法·架构
這花開嗎27 分钟前
试了一圈配音网站,说说我的感受
人工智能·语音识别
w_t_y_y29 分钟前
AI应用demo(二)打造个人的code agent
人工智能·语音识别
Raink老师35 分钟前
【AI面试临阵磨枪-60】微服务下 AI 能力如何封装、网关、限流、监控
人工智能·微服务·面试
ApiHug41 分钟前
Mintlify、Stainless & ApiHug 在AI 时代的战略意义
人工智能
九皇叔叔43 分钟前
Spring-Ai-Alibaba [04] 04-llm-platform-custom-demo
java·人工智能·spring
ai生成式引擎优化技术44 分钟前
DLOS Kernel v0.5:从多Agent系统到AI操作系统内核的拐点
人工智能
CHEN5_021 小时前
深入理解 RAG(检索增强生成):核心流程、技术选型与进阶实战
人工智能·rag