llm面试准备-LLM后训练的强化学习算法

未完

PPO、DPO、GRPO、DAPO、GSPO

近端策略优化PPO算法

是OpenAI在2017年提出的一种强化学习算法,被认为是目前强化学习领域的SOTA方法,也是适用性最广的算法之一

需要单独的critic模型,训练成本是policy模型的两倍,对超参数很敏感,调参难度大

DPO

不需要critic模型,直接用偏好数据训练。训练成本低,实现简单。但它只能学习哪个更好,不能学习为什么好。复杂任务推理表现不如PPO

GRPO

deepseek提出,不需要critic模型,用组内相对奖励代替绝对奖励。训练成本和DPO相当,效果接近PPO,性价比最高

------GRPO会使得模型的推理变长?

训练的loss按response长度做了归一化,优化方向;advantage中std归一化使训练不稳定;

DAPO是GRPO的改进版

更稳定的梯度估计、更好的探索机制、更少的超参数

GSPO面向特定任务的优化

针对多轮对话、代码生成、工具使用等任务做了专门优化。在agent、代码、多模态方向,可能比通用算法更好

来源:

GRPO为何会使得模型推理变长,你能说下吗? - 小红书最近有好多同学想让我说说GRPO、DAPO、GSPO 的演进,和LLM后训练的强化学习算法。 后训练正在成为 LLM 研究的核心,预训练模型是原材料,后训练才是决定模型能力的关键步骤。但算法这么多,PPO、DPO、GRPO、DAPO、GSPO,今天先简单讲讲,到底该怎么选? 第一,PPO 是经典,但成本高。 PPO 需要单独的 critic 模型,训练成本是 policy 模型的两倍。而且 PPO 的超参数很敏感,调参难度大。如果你有充足的计算资源和调参经验,PPO 仍然是最强的算法。但对大多数科研同学来说,PPO 的门槛太高了。 第二,DPO 是简化版,但能力上限低。 DPO 不需要 critic 模型,直接用偏好数据训练。训练成本低,实现简单。但 DPO 的问题是:它只能学习"哪个更好",不能学习"为什么更好"。这导致 DPO 训练的模型在复杂推理任务上表现不如 PPO。 第三,GRPO 是新范式,性价比最高。 GRPO 是 DeepSeek 提出的算法,不需要 critic 模型,但用组内相对奖励代替绝对奖励。训练成本和 DPO 相当,但效果接近 PPO。如果你做后训练研究,GRPO 是目前最好的起点。 第四,DAPO 是 GRPO 的改进版。 DAPO(Direct Alignment from Preferences with Optimization)在 GRPO 基础上做了几个改进:更稳定的梯度估计、更好的探索机制、更少的超参数。如果你发现 GRPO 在你的任务上不稳定,可以试试 DAPO。 第五,GSPO 是面向特定任务的优化。 GSPO针对多轮对话、代码生成、工具使用等任务做了专门优化。如果你做 Agent、代码、多模态方向,GSPO 可能比通用算法更好。 我建议这样先用 GRPO 做 baseline,因为它性价比最高。然后在你的任务上测试:如果效果够好,就继续用 GRPO。如果效果不稳定,换 DAPO。如果你的任务是 Agent 或代码,试试 GSPO。不要一开始就上 PPO,除非你有充足的计算资源和调参经验。 还是要提醒大家,算法是工具,不是目标。后训练算法已经很多了,找到一个真实需求,用现有算法解决它,比提出一个新算法但没有应用场景更有价值。 #科研 #后训练 #GRPO #DAPO #强化学习 #LLM - 小红书https://www.xiaohongshu.com/explore/6a3ce2610000000011004533?xsec_token=ABxhCrVjXUoXjX1OEjdiURz3ElV7jik9y4MG2w1LqWhHI=&xsec_source=pc_user