llm面试准备-LLM后训练的强化学习算法

白白要坚持2026-07-02 15:40

未完

PPO、DPO、GRPO、DAPO、GSPO

近端策略优化PPO算法

是OpenAI在2017年提出的一种强化学习算法，被认为是目前强化学习领域的SOTA方法，也是适用性最广的算法之一

需要单独的critic模型，训练成本是policy模型的两倍，对超参数很敏感，调参难度大

DPO

不需要critic模型，直接用偏好数据训练。训练成本低，实现简单。但它只能学习哪个更好，不能学习为什么好。复杂任务推理表现不如PPO

GRPO

deepseek提出，不需要critic模型，用组内相对奖励代替绝对奖励。训练成本和DPO相当，效果接近PPO，性价比最高

------GRPO会使得模型的推理变长？

训练的loss按response长度做了归一化，优化方向；advantage中std归一化使训练不稳定；

DAPO是GRPO的改进版

更稳定的梯度估计、更好的探索机制、更少的超参数

GSPO面向特定任务的优化

针对多轮对话、代码生成、工具使用等任务做了专门优化。在agent、代码、多模态方向，可能比通用算法更好

来源：

GRPO为何会使得模型推理变长，你能说下吗？ - 小红书最近有好多同学想让我说说GRPO、DAPO、GSPO 的演进，和LLM后训练的强化学习算法。后训练正在成为 LLM 研究的核心，预训练模型是原材料，后训练才是决定模型能力的关键步骤。但算法这么多，PPO、DPO、GRPO、DAPO、GSPO，今天先简单讲讲，到底该怎么选？第一，PPO 是经典，但成本高。 PPO 需要单独的 critic 模型，训练成本是 policy 模型的两倍。而且 PPO 的超参数很敏感，调参难度大。如果你有充足的计算资源和调参经验，PPO 仍然是最强的算法。但对大多数科研同学来说，PPO 的门槛太高了。第二，DPO 是简化版，但能力上限低。 DPO 不需要 critic 模型，直接用偏好数据训练。训练成本低，实现简单。但 DPO 的问题是：它只能学习"哪个更好"，不能学习"为什么更好"。这导致 DPO 训练的模型在复杂推理任务上表现不如 PPO。第三，GRPO 是新范式，性价比最高。 GRPO 是 DeepSeek 提出的算法，不需要 critic 模型，但用组内相对奖励代替绝对奖励。训练成本和 DPO 相当，但效果接近 PPO。如果你做后训练研究，GRPO 是目前最好的起点。第四，DAPO 是 GRPO 的改进版。 DAPO（Direct Alignment from Preferences with Optimization）在 GRPO 基础上做了几个改进：更稳定的梯度估计、更好的探索机制、更少的超参数。如果你发现 GRPO 在你的任务上不稳定，可以试试 DAPO。第五，GSPO 是面向特定任务的优化。 GSPO针对多轮对话、代码生成、工具使用等任务做了专门优化。如果你做 Agent、代码、多模态方向，GSPO 可能比通用算法更好。我建议这样先用 GRPO 做 baseline，因为它性价比最高。然后在你的任务上测试：如果效果够好，就继续用 GRPO。如果效果不稳定，换 DAPO。如果你的任务是 Agent 或代码，试试 GSPO。不要一开始就上 PPO，除非你有充足的计算资源和调参经验。还是要提醒大家，算法是工具，不是目标。后训练算法已经很多了，找到一个真实需求，用现有算法解决它，比提出一个新算法但没有应用场景更有价值。 #科研 #后训练 #GRPO #DAPO #强化学习 #LLM - 小红书https://www.xiaohongshu.com/explore/6a3ce2610000000011004533?xsec_token=ABxhCrVjXUoXjX1OEjdiURz3ElV7jik9y4MG2w1LqWhHI=&xsec_source=pc_user

上一篇：2026年在线监测数据造假典型案例分析：五种常见手段与法律后果

下一篇：无人机ADS-B天线AV-11 产品介绍

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？10微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新