自己的原文哦~https://blog.51cto.com/whaosoft/14132245
#Time Is a Feature
dLLM的「Free Lunch」!浙大&蚂蚁利用中间结果显著提升扩散语言模型
本文第一作者王文,浙江大学博士生,研究方向是多模态理解与生成等。本文通讯作者沈春华,浙江大学求是讲席教授,主要研究课题包括xx智能、大模型推理增强、强化学习、通用感知模型等。
近年来,扩散大语言模型(Diffusion Large Language Models, dLLMs)正迅速崭露头角,成为文本生成领域的一股新势力。与传统自回归(Autoregressive, AR)模型从左到右逐字生成不同,dLLM 依托迭代去噪的生成机制,不仅能够一次性生成多个 token,还能在对话、推理、创作等任务中展现出独特的优势。当你还在等传统 LLM「一个字一个字」地憋出答案时,dLLM 早已通过几轮迭代「秒」出完整结果,带来前所未有的生成效率。
然而,速度的提升并不意味着完美的答案。现有 dLLM 的解码策略往往只关注最后一次迭代的生成结果,直接舍弃了中间多轮迭代中蕴含的丰富语义与推理信息。这些被忽视的中间预测,实际上可能暗藏着更准确、更接近真相的答案。一旦被丢弃,不仅造成信息浪费,还可能让模型错失做对题目的最佳时机。
更令人意外的是,研究团队在数学推理任务中观察到了一种「先对后错」的现象:模型先是得出了正确答案,却在随后的迭代中将其「推翻」,转而采用错误答案,最终导致整体回答错误。以下图为例,模型在第 55 步时明明已经得到正确的 25,却在后续生成中改成了 2,并一直坚持到最后也未能修正。

正是基于这一关键观察,来自浙江大学的研究团队从时序视角切入,提出了 Temporal Self-Consistency Voting 与 Temporal Consistency Reinforcement 两种方法,对模型的性能进行优化与提升。
论文标题:Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models
论文地址:https://arxiv.org/abs/2508.09138
项目主页:https://aim-uofa.github.io/dLLM-MidTruth/
Github:https://github.com/aim-uofa/dLLM-MidTruth
Huggingface Paper:https://huggingface.co/papers/2508.09138
Temporal Self-Consistency Voting:从时间维度「抓住」模型最靠谱的答案

在传统的自回归(AR)模型中,majority vote 通常需要针对同一个 prompt 多次生成完整回答,再根据出现频率选出最高票的答案。虽然这种方法在提升准确率方面有效,但代价是成倍增加计算开销,往往需要耗费数倍的推理时间与资源。
而研究团队结合 dLLM 的迭代生成特性,提出了 Temporal Self-Consistency Voting (TCV) 方法。它不必额外生成多条回答,而是直接利用 dLLM 在去噪过程中每个时间步的中间结果,进行一次「时间轴上的投票」来选出最终答案。考虑到 dLLM 在迭代去噪中理论上会逐渐趋于稳定与确定,TCV 还为不同时间步的结果分配了不同权重,从而更精准地捕捉最可靠的预测。
该方法的主要创新之处在于,它巧妙地将「多数投票」理念与 dLLM 的时间维度信息结合起来,实现了几乎零额外计算成本的性能提升,同时充分挖掘了中间预测中的潜在价值。
Temporal Consistency Reinforcement:
用时序一致性训练出更稳的 dLLM
研究团队针对 dLLM 的中间预测结果,创造性地提出了 Temporal Semantic Entropy (TSE) 这一概念。TSE 通过计算模型在不同迭代步骤中预测结果的语义熵,来衡量生成过程中的一致性程度。直观来说,熵越低,说明模型在迭代中越稳定、越坚定自己的选择;熵越高,则意味着生成路径摇摆不定、易于被干扰。

在实验分析中,他们发现了一些颇具规律性的现象:在相对简单、模型准确率较高的数据集(如 GSM8K 和 SVAMP)上,TSE 值普遍较低;而在同一个数据集中,模型答对的问题的 TSE 往往显著低于答错的问题。这一发现表明,稳定的生成路径往往与更好的任务表现高度相关。
基于这一洞察,研究团队提出了 Temporal Consistency Reinforcement (TCR) 方法,将 TSE 直接作为奖励信号,引导模型在训练中主动降低 TSE,从而提升生成路径的稳定性。进一步地,他们还利用 scoring rule,将 TSE 与传统的正确性奖励相结合,实现「双重监督」------既让模型追求正确答案,又保持推理过程的一致性,最终训练出更稳定、性能更优的 dLLM。
实验结果
研究团队在三个主流数学推理数据集(GSM8K、MATH500、SVAMP)以及一个逻辑推理数据集(Countdown)上进行了系统测试。结果显示,Temporal Self-Consistency Voting 几乎不增加额外计算成本,就能在多个数据集上稳定带来性能提升,验证了从中间迭代中挖掘信息的有效性。

与此同时,Temporal Consistency Reinforcement 的表现同样令人惊艳------仅仅利用 Temporal Semantic Entropy (TSE) 作为唯一奖励信号,就能在 Countdown 数据集上实现 24.7% 的显著提升。更进一步,当将 TSE 与传统的正确性奖励结合时,不仅在 Countdown 上提升至 25.3%,在 GSM8K、MATH500、SVAMP 上也分别取得了 +2.0%、+4.3%、+6.6% 的绝对增幅,全面超越了仅依赖正确性奖励的效果。

训练后模型性质分析

研究团队对训练后模型进行分析发现:模型生成更稳定、输出更简洁。具体表现为:
- 时间一致性提升:生成过程更稳,中间预测波动减少;
- 仍有提升空间:虽然表现更好,但模型在中间预测上仍有可优化空间;
- 输出更精炼:有效 token 数下降,答案更简短,可能也更不容易「自打脸」。
这表明,通过 Temporal Consistency Reinforcement,不仅让模型跑得快,也更能稳稳抓住正确答案。
总结
总体来看,这项工作揭示了 dLLM 生成过程中的「先对后错」现象,并提出了两种创新方法------Temporal Self-Consistency Voting 和 Temporal Consistency Reinforcement。它们利用中间预测的时间一致性和语义稳定性,不仅显著提升了模型在数学与逻辑推理任务上的表现,也为未来挖掘 dLLM 潜力提供了全新的思路。
#TREAD
DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学
「兄弟们,DiT 是错的!」
最近一篇帖子在 X 上引发了很大的讨论,有博主表示 DiT 存在架构上的缺陷,并附上一张论文截图。

图 1. 我们引入了 TREAD,这是一种能够显著提升基于 token 的扩散模型骨干网络训练效率的训练策略。当应用于标准的 DiT 骨干网络时,我们在无引导 FID 指标上实现了 14/37 倍的训练速度提升,同时也收敛到了更好的生成质量。
图中横轴代表训练时间(以 A100 GPU 的小时数为单位,log 尺度,从 100 小时到 10000 小时),纵轴代表 FID 分数(越低越好,代表生成图像质量越高)。
博主认为,这个图的核心信息不是 TREAD 的速度优势,而是 DiT 的 FID 过早稳定,暗示 DiT 可能存在「隐性架构缺陷」,导致其无法继续从数据中学习。

博主提到的论文发表于今年 1 月(3 月更新 v2),介绍了一种名为 TREAD 的新方法,该工作通过一种创新的「令牌路由」(token routing)机制,在不改变模型架构的情况下,极大地提升了训练效率和生成图像的质量,从而在速度和性能上都显著超越了 DiT 模型。
具体而言,TREAD 在训练过程中使用「部分令牌集」(partial token set) vs 「完整令牌集」(full token set),通过预定义路由保存信息并重新引入到更深层,跳过部分计算以减少成本,同时仅用于训练阶段,推理时仍采用标准设置。这与 MaskDiT 等方法类似,但更高效。
论文标题:TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training
论文地址:https://arxiv.org/abs/2501.04765
代码:https://github.com/CompVis/tread
博主在后续回复中逐步展开了对 DiT 的批判,并解释 TREAD 如何暴露这些问题。
博主指出,该论文揭示了 DiT 模型的设计缺陷。具体来说,研究发现在训练过程中,如果将模型中的一部分计算单元替换为「恒等函数」(Identity Function)------ 也就是让这些单元什么计算都不做,仅仅是「直通」数据,相当于被临时禁用了 ------ 模型的最终评估分数反而会提高。

接着博主指出 DiT 的两个「可疑」的设计:
- 整个架构都使用「后层归一化」(Post-LayerNorm)

博主认为 DiT 使用了一种已知不太稳定的技术(后层归一化),来处理一个数值范围变化极其剧烈的任务(扩散过程)。
- adaLN-zero

博主认为,这个模型虽然整体上自称是「Transformer」架构,但在处理最关键的「指导信息」(即条件数据)时,并没有使用强大的 Transformer,而是用了一个非常简单的 MLP 网络(多层感知机)。
更具体地,adaLN-zero 通过完全覆盖注意力单元的输入,并注入任意偏置来覆盖输出,这限制了模型的表达能力,相当于「讨厌注意力操作」(hate the attention operation),从而削弱了 DiT 的整体潜力。

博主还提到与早期论文相关的 LayerNorm 研究,指出 LayerNorm 的偏置和增益参数可能对梯度调整影响更大,而非真正改善模型性能。他认为,adaLN-zero 正是利用了这一点,名为「梯度调节」,实则像是在「给小模型偷偷注入过拟合的偏置」。

- 论文标题:Understanding and Improving Layer Normalization
- 论文地址:https://arxiv.org/abs/1911.07013
看了这篇帖子,DiT 的作者,纽约大学计算机科学助理教授谢赛宁有些忍不住了。
在 2022 年,谢赛宁发表了 DiT 的论文,这是扩散模式首次和 Transformer 相结合。

- 论文标题:Scalable Diffusion Models with Transformers
- 论文链接:https://arxiv.org/pdf/2212.09748
在 DiT 问世之后,Transformer 逐步代替原始扩散模型中的 U-Net,在图像和视频生成任务中生成高质量的结果。
其核心思想是采用 Transformer 代替传统的卷积神经网络作为扩散模型的主干网络。

这一方法业已成为 Sora 和 Stable Diffusion 3 的基础架构,同时也确定了 DiT 的学术地位。
在 DiT 论文刚刚问世时,就已接连受到质疑,甚至以「缺乏创新」为由被 CVPR 2023 拒稿。
这一次面对 DiT 在数学和形式上都「是错的」的论调,谢赛宁发推做出了几点回应。

从字里行间来看,谢赛宁对这个帖子多少有些情绪:
我知道原帖是在钓鱼骗点击率,但我还是咬一下钩......
坦白讲,每个研究者的梦想其实就是发现自己的架构是错的。如果它永远都没问题,那才是真正的大问题。
我们每天都在用 SiT、REPA、REPA-E 等方法试图打破 DiT,但这需要基于假设、做实验、进行验证,而不是只在脑子里扮演式地做科学...... 否则,你得出的结论不仅仅是错的,而是根本连错都谈不上。
也难怪谢赛宁语气有些不善,原帖博主的一些说法可能有些拱火的嫌疑:


谢赛宁也从技术角度对于原帖子提出的一些问题进行了回复,在对原帖的部分问题进行了反驳后,他也同样说明了 DiT 架构目前存在一些硬伤。
截至今天,DiT 的问题:
- tread 更接近于 stochastic depth,我认为它的收敛性来自正则化效应,这让表示能力更强(注意推理过程是标准的 ------ 所有模块都会处理所有 token);这是非常有意思的工作,但和原帖说的完全不是一回事。
- Lightning DiT 已经是经过验证的稳健升级版(结合了 swiglu、rmsnorm、rope、patch size=1),有条件就应该优先使用它。
- 没有任何证据表明 post-norm 会带来负面影响。
- 过去一年最大的改进点在于内部表示学习:最早是 REPA,但现在有很多方法(例如 tokenizer 层面的修正:VA-VAE / REPA-E,把语义 token 拼接进噪声潜变量、解耦式架构如 DDT,或者通过分散损失、自表示对齐等正则化手段)。
- 始终优先采用随机插值 / 流匹配(SiT 在这里应该是基线)。
- 对于时间嵌入,使用 AdaLN-zero;但遇到更复杂的分布(如文本嵌入)时,应采用交叉注意力。
- 不过要用对方式 ------ 采用 PixArt 风格的共享 AdaLN,否则会白白浪费 30% 的参数。
- 真正的「硬伤」其实是 DiT 里的 sd-vae:这是显而易见却长期被忽视的问题 ------ 它臃肿低效(处理 256×256 图像竟需要 445.87 GFlops?)、不是端到端的。像 VA-VAE 和 REPA-E 只是部分修复,更多进展还在路上。
评论网友也对回应中提到的技术细节感兴趣,谢赛宁也都对相关疑惑做出了回复:


算法的迭代进步总是伴随着对现有算法的质疑,虽说所谓「不破不立」,但 DiT 仍然在擂台中央,不是么?
#LongVie
Sora没做到的,LongVie框架给解决了,超长视频生成SOTA
从 Sora 的惊艳亮相到多款高性能开源模型的诞生,视频生成在过去两年迎来爆发式进步,已能生成几十秒的高质量短片。然而,要想生成时长超过 1 分钟、内容与运动可控、风格统一的超长视频,仍面临巨大挑战。
为此,上海人工智能实验室联合南京大学、复旦大学、南洋理工大学 S-Lab、英伟达等机构提出 LongVie 框架,系统性解决可控长视频生成中的核心难题。
- 项目主页:https://vchitect.github.io/LongVie-project/
- 视频:https://www.youtube.com/watch?v=SOiTfdGmGEY\&t=1s
- 论文:https://arxiv.org/abs/2508.03694
- Github:https://github.com/Vchitect/LongVie
,时长02:12
难点剖析
直接利用当前的可控视频生成模型生成分钟级长视频时,通常会出现以下问题:
- 时序不一致:前后画面细节与内容不连贯,出现闪烁等现象。
- 视觉退化:随时长增长,出现颜色漂移、清晰度下降等问题。

解决时序不一致:两项关键策略
LongVie 从「控制信号」与「初始噪声」两条路径入手:
- 控制信号全局归一化(Control Signals Global Normalization)
将控制信号在全片段范围内统一归一化,而非仅在单一片段内归一化,显著提升跨片段拼接时的一致性。
- 统一噪声初始化(Unified Noise Initialization)
各片段共享同一初始噪声,从源头对齐不同片段的生成分布,减少前后帧外观与细节漂移。
(下图展示了两项策略带来的前后一致性提升)

解决视觉退化:多模态精细控制
单一模态的控制难以在长时间下提供稳定而全面的约束,误差会随时间累积并引发画质下降。LongVie 融合密集控制信号(如深度图)与稀疏控制信号(如关键点),并引入退化感知训练策略,在更贴近长序列退化分布的条件下训练模型,使长视频生成在细节与稳定性上同时受益。
(下图给出了单一模态与多模态对比示例)

一图看懂 LongVie 框架

从左至右,LongVie 先将跨片段的稠密(深度)与稀疏(关键点)控制视频做全局归一化,并为所有片段采用统一的噪声

初始化。随后在具体某一片段生成时,将全局归一化后的控制信号、上一片段的末帧与文本提示送入模型,最终生成当前片段的视频,接着不断生成后面的片段,从而生成长视频。

控制信号怎么融合更稳更强?团队把标准 ControlNet(a)和两种变体(b、c)都做了对比测试,结果显示变体(c)效果更好、训练更稳定,最终被采纳。
LongVie 能力展示
LongVie 支持多种长视频生成下游任务,包括但不限于:
- 视频编辑:对长视频进行一致性的内容修改与编辑。
- 风格迁移:对整段长视频执行统一且时序连贯的风格迁移。
- Mesh-to-Video:从三维体素出发生成逼真的长视频。
(如下图为不同任务的效果示例)



LongVGenBench:首个可控超长视频评测基准
当前缺乏面向可控长视频生成的标准化评测。为此,作者团队提出 LongVGenBench------ 首个专为超长视频生成设计的基准数据集,包含 100 个时长超过 1 分钟的高分辨率视频,旨在推动该方向的系统研究与公平评测。
基于 LongVGenBench 的定量指标与用户主观测评显示,LongVie 在多项指标上优于现有方法,并获得最高用户偏好度,达到 SOTA 水平。(详见下表与用户研究结果)


.
#Look-Back
当VLM学会了"回头看" !Qwen-2.5-VL突破性发现,7B模型自主激活'视觉反思',感知任务性能提升6.3%
无需额外图像输入,Qwen-2.5-VL 7B 凭「Look-Back」机制在推理后期自发"回头看"关键视觉信息,一举将数学与感知任务平均提升约7%和6.3%,刷新多模态推理范式。
本文主要解决了什么问题
- 多模态大语言模型(MLLMs)在推理后期过度依赖文本信息,忽视视觉输入整合的问题 。现有方法通常依赖显式注入视觉信息来引导模型重新关注图像,但这种做法增加了推理复杂度,并未充分利用模型本身的视觉融合推理能力。 2. 缺乏对MLLMs自发视觉注意力机制的研究 。现有方法普遍假设模型不具备自主重新聚焦视觉输入的能力,因此依赖外部干预。本文提出关键问题:是否可以在不显式注入视觉信息的前提下,引导模型自发地重新聚焦于视觉输入。 3. 模型在生成视觉反思行为时触发率低的问题。通过简单的Prompt引导虽然能观察到视觉注意力的增强,但触发率极低(平均6.248%),难以稳定实现视觉融合推理。
本文的核心创新是什么
-
提出Look-Back方法 :一种隐式训练范式,使MLLMs能够在推理过程中自主决定何时、何地以及如何重新关注视觉输入,而无需显式注入图像信息或修改模型结构。 2. 发现MLLMs具备自发视觉注意力机制 :通过注意力图分析,证实即使不显式提供图像输入,模型在生成特定Token(如
<back>
)时仍能自然地将注意力重新聚焦到图像的关键区域。 3. 两阶段训练框架:- 冷启动监督微调(SFT):使用高阶模型(如GPT-4o)生成带有
<back>
Token的反思性推理样本,构建初始训练数据集。 - 强化学习(RL):基于GRPO算法,设计格式Reward函数,激励模型自发生成视觉反思行为。
- 冷启动监督微调(SFT):使用高阶模型(如GPT-4o)生成带有
-
无需额外输入或结构修改:Look-Back完全依赖模型内部机制,避免了显式重输入图像或引入额外Token的繁琐流程。
结果相较于以前的方法有哪些提升
-
在多个多模态基准测试中性能显著提升:
- 在数学任务中,Semantic-back平均提升7%(从48.5%到55.5%),Solution-back提升7.9%(从48.5%到56.4%)。
- 在感知任务中,Semantic-back提升6.3%(从61.3%到67.6%),Solution-back提升6%(从61.3%到67.3%)。
-
与开源推理MLLMs相比具有竞争力:
- 尽管参数量更小,Look-Back仍能缩小与闭源模型(如GPT-4o和o3)之间的差距,尤其在Solution-back设置下表现突出。
-
提升模型泛化能力:
- 尽管训练数据主要为数学任务,Look-Back在感知任务中也表现出良好的泛化能力,说明其机制具有跨任务适应性。
-
可视化注意力机制验证:
- 通过注意力图分析,验证了模型在生成
<back>
Token时确实聚焦于图像中的关键区域,证明了视觉反思行为的真实性与有效性。
- 通过注意力图分析,验证了模型在生成
局限性总结
-
冷启动数据构建依赖高阶模型:
- 当前方法依赖GPT-4o等闭源模型生成带有
<back>
Token的样本,限制了方法的可扩展性和开源友好性。
- 当前方法依赖GPT-4o等闭源模型生成带有
-
触发率低的问题仍未完全解决:
- 即使通过强化学习提升,
<back>
Token的触发率仍然有限,表明模型在自主生成视觉反思行为方面仍存在挑战。
- 即使通过强化学习提升,
-
训练数据的模态和任务偏差:
- 实验中主要使用数学推理数据进行训练,导致在感知任务上的提升略逊于数学任务,说明训练数据的多样性对模型泛化能力有重要影响。
-
存在潜在的Reward攻击风险:
- 模型可能通过生成空
<back>
Token序列来"走捷径"获取格式Reward,说明强化学习训练中仍需更精细的控制机制。
- 模型可能通过生成空
-
方法对模型架构和预训练基础敏感:
- 实验表明,Qwen-2.5-VL具备一定的视觉反思能力,而更早版本(如Qwen-2-VL)则表现不佳,说明方法对模型基础能力有较高依赖。
深入阅读版本导读
多模态大语言模型(MLLMs)在多模态推理方面取得了显著进展。然而,它们在推理后期往往过度依赖文本信息,忽视了视觉输入的关键整合。当前方法通常通过显式注入视觉信息来指导推理过程来解决这个问题。在本工作中,通过分析MLLMs的注意力模式,作者做出了一个有趣的观察:在适当引导下,即使没有显式注入视觉信息,MLLMs也能在推理后期自发地将注意力重新集中在视觉输入上。这种注意力的自发转变表明MLLMs本质上具备执行视觉融合推理的能力。基于这一见解,作者提出了Look-Back,这是一种隐式方法,旨在引导MLLMs在推理过程中以ego驱动的方式"回顾"视觉信息。Look-Back使模型能够自主决定何时、何地以及如何重新关注视觉输入,无需显式的模型结构约束或额外的输入。作者通过在多个多模态基准上的广泛实证评估证明,Look-Back显著增强了模型的推理和感知能力。
1 引言
随着多模态推理(Amizadeh等人2020;Garcez等人2019;Gupta和Kembhavi2023;Thawakar等人2025;Guo等人2024;Bai等人2023;Hurst等人2024;Xu等人2024)和带验证性 Reward 的强化学习(RLVR)(Shao等人2024b;Guo等人2025;Meng等人2025;Peng等人2025)的发展,多模态大语言模型(MLLMs)(Liu等人2023;团队2025;Wang等人2024b;Liao等人2025;Lin等人2025;Wan等人2025b)在联合处理图像和文本输入以执行复杂任务方面取得了显著进展(Google2025;OpenAI2025;Jaech等人2024;Pang等人2024)。然而,最近的研究表明,大多数方法在推理的后期阶段仍然主要依赖文本,忽视了视觉模态(Zheng等人2025b;Fan等人2025;Su等人2025;Zhang等人2025d;Yang等人2025b;Hu等人2024;Liu等人2025e;Zou等人2024)。具体而言,在推理过程中,模型对视觉信息的关注度逐渐降低,在后期阶段几乎降至零(Sun等人2025;Tu等人2025;Chen等人2024b),以至于后期阶段的视觉信息对推理结果的影响微乎其微(Sun等人2025)。
然而,人类在多模态推理中自然地将视觉和认知处理相结合(Najemnik和Geisler 2005;Tversky、Morrison和Betrancourt 2002;Tversky 2005;Kosslyn 1996;Goel 1995;Larkin和Simon 1987;Zhang和Norman 1994),而OpenAI的o3(OpenAI 2025)则代表了该领域从单纯基于文本的推理向与视觉信息深度整合的逐步转变。尽管取得了这些进展,但大多数现有方法仍然明确地注入视觉信息(Zheng等人 2025b;Su等人 2025;Zhang等人 2025d;Wang等人 2025d;Chern等人 2025),例如重新输入图像或将图像 Token 重新注入模型(Sarch等人 2025;Wu等人 2025a;Xu等人 2025;Zhang等人 2025b;Gupta和Kembhavi 2023)。这些方法本质上引导模型重新关注视觉线索。基于此,作者提出了一个关键的研究问题:> MLLMs能否通过ego指导的方式隐含地学习何时以及如何重新聚焦于视觉输入,而不是显式地重新注入视觉信息?
基于上述问题,作者进行了一项初步实验以验证模型能够自主重新聚焦于图像。具体而言,作者将一个简单的 Prompt (如图2所示)引入到原始的CoT框架中。令人惊讶的是,在推理的后期阶段,模型自发地增强了其对图像的关注,重新聚焦于视觉输入,而无需任何额外的显式输入或模型结构约束。

为了更好地利用模型对图像的自主注意力现象,作者提出了Look-Back方法,该方法旨在以自然和ego驱动的方式引导MLLMs在推理过程中"回顾"视觉信息,从而增强其对视觉输入的注意力。具体而言,作者开发了一个两阶段训练框架。在第一阶段,作者利用先进的MLLMs生成带有 Token 的反思数据,随后进行冷启动微调,为后续的强化学习训练奠定基础。在第二阶段,作者仅对GRPO算法引入基于 Token 的格式 Reward ,旨在通过强化学习进一步强化模型对视觉信息的关注能力。
如图1所示,Look-Back能够有效鼓励MLLMs自发生成与图像相关的反思性推理内容,而无需显式注入视觉信息,并在推理后期自主增强对图像的关注(即重新聚焦于图像)。通过分析注意力图,作者确认模型确实在 Token 中关注了正确的视觉位置。Look-Back使模型能够自主决定何时(触发 Token 的时间由模型决定)、何地(选择图像中特定的区域进行关注)以及如何(自主决定如何增强注意力)对视觉输入进行反思,所有这一切均无需显式输入或对模型的结构施加约束。

本文旨在提出一种由模型自发生成的隐式视觉融合推理范式,而非仅仅评估哪种范式最为有效。作者使用Qwen-2.5-VL-7B模型(团队2025)在多个广泛使用的多模态推理基准上进行了全面的实验验证。结果表明,通过引导模型自发重新聚焦于图像Look-Back,可以持续提升推理和感知任务中的性能。作者的主要贡献总结如下:
- 通过分析注意力变化趋势,作者发现,在不明确注入视觉信息的情况下,现有的MLLM能够自主关注视觉输入。
- 作者提出了回溯隐式训练范式,该范式在冷启动微调后,通过简单地修改格式 Reward 函数即可触发模型的视觉反射行为。
- 在多个多模态基准测试上的广泛评估表明,Look-Back能够持续提升推理和感知任务的表现。
2 MLLMs是否知道何时以及如何反思视觉输入?
近期研究(Hu等人2024;Zhang等人2025d;Su等人2025;Fan等人2025;Liu等人2025e;Zheng等人2025b)表明,多模态大语言模型(MLLMs)在推理后期阶段往往过度依赖文本信息,忽视了视觉输入的关键整合。随着推理过程的推进,对视觉信息的关注度逐渐降低,这显著影响了视觉语言模型的可靠性和性能。当前方法通常通过显式注入视觉信息来指导推理过程,例如将图像重新输入模型,以此解决这一问题。
然而,这引发了一个基本问题:能否在不依赖外部干预的情况下,使MLLMs自发地重新激活对视觉输入的关注?为探究此问题,作者进行了一项初步实验,采用了一种简单的 Prompt 修改方法,鼓励模型生成cback Token ,并随后基于视觉信息重新审视其响应。
令人惊讶的是,如图2所示,该模型展现出卓越的自发性视觉注意力恢复能力。在生成 Token 时,模型自然地将大量注意力重新导向视觉输入,中央图表中"Image Token"注意力比例的急剧上升便是明证。关键在于,这并非对图像的泛泛浏览;模型的推理精准地基于视觉证据。底部注意力图提供了有力证据:在生成序列时,模型会专门聚焦于相应目标------例如,在生成"yellow" Token 时关注黄色公交车,在生成"car" Token 时关注金色汽车。这种目标性重新聚焦是内在发生的,无需显式注入视觉信息或对模型架构进行结构修改。

表1中的结果在多个基准测试上展示了定量改进,这初步验证了MLLMs具备ego导向视觉反思的潜在能力。为进一步验证反向机制带来的性能提升,作者对"Back prompt"成功触发视觉反思的问题子集进行了专门分析。如表2所示,比较该特定问题子集上的性能表明,参与视觉反思在所有基准测试中带来了更大的改进。然而,表1中的"触发率"揭示了关键局限性:即使经过精心调整的 Prompt ,仅修改 Prompt 不足以始终触发这种反思行为,导致平均触发率仅为。因此,作者提出使用强化学习来进一步激励该机制。

3 回溯方法
所提出的回溯方法旨在引导多模态大语言模型(MLLMs)在推理过程中自发地重新聚焦视觉输入,从而增强其视觉融合推理能力。具体而言,回溯方法包含两个主要阶段:监督微调(SFT)和强化学习(RL)。
冷启动初始化
为解决与 Token 自发触发相关的稳定性问题以及模型通过 Reward 劫持进行的 Reward 操纵(详见讨论部分),作者首先构建了一个用于冷启动初始化的监督微调数据集。具体而言,根据 Token 触发的时机,作者将回退 Prompt 分为两类:
语义级回溯(Semantic-back):在推理过程中被触发,允许模型重新审视对中间推理步骤至关重要的视觉细节,并随后继续其正在进行中的推理。: 解级回溯(Solution-back):在模型生成初步解决方案后被触发,促使模型通过重新考虑视觉输入进行全面反思。
作者设计了两种明确的输出格式,如下所示(详见附录B)。
数据构建。作者设计了一个特定的数据构建过程,如图3(A)所示,该过程由以下三个步骤组成:

- 模型推理:首先,作者使用Qwen-2.5-VL-7B对数据集进行思维链(Chain-of-Thought, CoT)推理。对于每个问题,作者进行次独立推理(在作者的实验中,或)。
- CoT选择:基于推理结果,作者计算准确率 Reward ,并选择 Reward 方差较高且难度较大的问题。
- High-Level模型插入:问题、图像、模型生成的思维链推理过程以及正确答案被输入到GPT-o4-mini中,该模型根据预定义规则自动插入回溯 Token 。对于答案正确的样本,会插入与图像验证相关的回溯 Token 。对于答案错误的样本,会插入基于图像信息修正答案的回溯 Token ,并相应调整最终答案。
通过上述步骤,每个样本都获得了一个带有明确 Token 的稳定冷启动响应。这产生了一个带有显式回溯 Token 的稳定冷启动数据集。
监督微调(SFT)。使用由 Token 生成的冷启动数据集,作者应用SFT来指导模型一致地触发回溯行为。每个样本表示为 ,其中 表示输入图像, 代表问题, 是回溯 Token序列, 是答案序列。训练目标是如下:

其中 表示数据集, 将回溯 Token 和答案序列连接起来。
回顾强化学习
为进一步提升模型自主重访视觉输入的能力,作者采用群体相对策略优化(GRPO)算法进行强化学习。相较于传统的策略优化方法,GRPO在样本群体内执行策略梯度优化,使模型能够高效生成更多样化且丰富的推理响应。优化目标如下:

其中 和 分别是裁剪超参数和KL散度惩罚系数。为了更稳定地引导模型触发视觉审查行为,作者仅修改了格式 Reward 函数。具体而言,格式 Reward 函数 定义如下:

完整的 Reward 函数是格式 Reward 和准确率 Reward 的组合,定义为:
其中 表示响应的准确度 Reward, 是一个超参数,用于调整格式 Reward 与准确度 Reward 之间的平衡。本质上,作者设计的 Reward 函数为模型提供了内在动机,使其能够自主地重新审视视觉信息。这使模型能够在推理过程中主动反思视觉输入,类似于人类自然地重新审视视觉信息,而无需显式地重新注入图像。
4 回顾实验分析 实验设置
Baseline 与基准测试。为了评估Look-Back的有效性,作者在一组包含八个基准测试的实验中进行了测试,这些基准测试分为两类:数学任务和感知任务。数学基准测试包括
MathVerse(张等人 2024)、MathVision(王等人 2024a)、MathVista(陆等人 2023)、WeMath(乔等人 2024)和GeoMath(谭等人 2025),而感知基准包括HallusionBench(关等人 2024)、TallyQA(阿查里亚、卡夫勒和卡南 2019)和MME(傅等人 2024)。作者分别计算了每个类别的平均性能。此外,作者将LookBack与三种类型的 Baseline 进行了比较:(1)闭源多模态大语言模型(MLLMs),如GPT-4o(哈斯特等人 2024)和o3(OpenAI 2025);(2)开源通用MLLMs,如Qwen2.5-VL32B(团队 2025)和InternVL3-38B(朱等人 2025);(3)开源推理MLLMs,如MM-Eureka8B(孟等人 2025)、R1-VL-7B(张等人 2025a)、VL-Rethinker-7B(王等人 2025a)、OpenVLThinker7B(邓等人 2025)、ThinkLite-VL-7B(王等人 2025c)、VLAA-Thinker-7B(陈等人 2025a)、VisionR1-7B(黄等人 2025)、MM-Eureka-Qwen-7B(孟等人 2025)、R1-Onevision-7B(杨等人 2025b)和NoisyRollout-7B(刘等人 2025b)。
训练数据集。在强化学习(RL)阶段,作者从Geo170K(Gao等人,2023)、Math360K(Shi等人,2024)、Geometry3K(Lu等人,2021)和K12(Meng等人,2025)数据集中选取了15k个数学问题用于训练。在监督微调(SFT)阶段,作者应用了第3.1节中概述的数据构建过程,对RL阶段的15k个问题进行处理,分别生成了4k和10k个冷启动数据集,用于Semantic-back和Solution-back。
实现细节。训练在八块NVIDIA A800 GPU上进行,作者在Qwen2.5-VL7B-Instruct模型上执行了冷启动SFT和随后的RL训练。作者使用LLaMA-Factory(Zheng等人,2024)框架进行SFT。为了防止过拟合,作者只训练了一个epoch。对于RL,作者采用了EasyR1(Sheng等人,2024;Zheng等人,2025a)框架,其中默认 Reward 权重,记作 ,设置为 0.1 。在 15 k数据集上进行了两个epoch的训练,使用批处理大小为128(每个样本12次rollout)和采样温度为1.0。其他设置请参见附录A。
主要结果
数学推理。如表3所示,作者的LookBack方法基于Qwen2.5-VL-7B构建,在所有基准测试中均优于基础模型。具体而言,在五个数学基准测试中,Semantic-back平均提升了7%(从48.5%提升至55.5%),而Solution-back则提升了7.9%(从48.5%提升至56.4%)。此外,作者还将Look-Back与十种不同的开源推理MLLM进行了比较。尽管各模型的训练数据和时长存在差异,使得直接比较存在困难,但Look-Back仍展现出具有竞争力的性能。尽管参数数量显著较少,但Solution-back得益于"回溯"机制,缩小了与闭源模型的差距。

感知推理。尽管作者的训练主要利用了数学推理数据,但值得注意的是,在感知基准测试中,Semantic-back实现了平均提升6.3%(从61.3%提升至67.6%),而Solution-back相较于 Baseline 模型提升了6%(从61.3%提升至67.3%)。此外,Look-Back在与其他开源推理MLLMs的竞争中表现出强大的竞争力。这些结果突显了"回溯"机制在增强多模态推理系统泛化能力方面的重要性。
消融研究
回溯效果。作者进一步研究了Look-Back框架中每个阶段的贡献。如表4所示,移除Look-Back训练中的RL阶段或SFT阶段会导致模型性能显著下降。此外,与不包含任何回溯机制的标准GRPO相比,语义级回溯机制和解决方案级回溯机制均通过应用回溯实现了性能提升。有关训练过程的进一步分析请参见附录D。
反射率消融实验。由于模型的回溯过程包含验证和基于反射的错误纠正,在SFT冷启动阶段提供单一回溯数据集是不合理的,因为这极易导致 Reward 攻击。因此,作者以语义级回溯机制为例,对SFT数据集的反射率进行了消融研究。表5所示的结果表明,不同类型任务的最佳反射率位于30%至50%之间。过低的反射率和过高的反射率都会导致模型性能下降。因此,在本研究中作者采用了50%的反射率。

定性推理分析
在观察到跨多个基准测试的定量性能提升之外,作者进行了定性分析以验证Look-Back改变了MLLM注意力模式。具体而言,如图4所示,Look-Back在数学和感知任务中始终如一地提升了注意力。与标准GRPO相比,LookBack使模型在推理后期阶段能够重新聚焦于视觉输入以进行验证。

进一步的定性分析(附录C)揭示了来自五个不同基准的具体案例,突显了Semantic-back和Solution-back如何有效利用Look-Back机制,通过明确地将推理与视觉证据相结合来纠正初始错误。这表明Look-Back能够有效引导MLLMs自主确定何时、何地以及如何重新审视视觉信息,从而超越了对文本推理的单一依赖。这一发现进一步支持了作者的核心观点:在适当的指导下,MLLMs能够在没有明确视觉 Prompt 的情况下进行视觉融合推理。
对抗 Reward 攻击:模型通过生成空的 back Token 序列,学会了走捷径,从而在不进行真实推理的情况下获得格式 Reward 。这与先前的研究发现(Yue et al. 2025)一致,即强化学习可能无法在基础模型之上提升推理能力。作者假设这个问题之所以出现,是因为Qwen2-VL本身缺乏足够的视觉反思能力,而Qwen-2.5-VL可能由于预训练而具备这种能力。
5 进一步讨论
失败尝试
在作者尝试利用模型自发重新聚焦图像的能力时,作者遇到了一些失败和挫折。在本节中,作者分析了这些失败的经验,但强调这些失败并不意味着该方法本身存在根本性缺陷。
在弱模型中的 Reward 攻击。作者最初对Qwen-2-VL模型应用了回溯训练,但遇到了enSFT冷启动数据需求问题。最初,作者使用GPT-4o生成CoT数据,并随后插入 Token 。然而,作者观察到在模型冷启动后性能有所下降。受Wan等人(2025a)的启发,作者转而使用模型生成的数据,并优化插入方式,从而提升了性能。作者假设,在同构模型输出上进行微调可以减少分布偏差,更好地与冷启动目标------即保持输出格式的一致性------相契合。
冷启动影响
扩展冷启动数据。为评估冷启动数据规模对性能的影响,作者使用Solution-back方法对2.5k、5k、7.5k和10k个样本进行了实验,所有样本均为数学性质。如图5所示,随着冷启动数据的增加,数学任务的平均得分有所提高,表明在冷启动阶段进行扩展有助于持续性能提升。然而,感知任务的性能略有下降,尽管整体性能保持相对稳定。作者假设,使用纯数学数据进行冷启动可能会限制感知任务的进一步泛化。引入更多样化的SFT和RL数据可以进一步提升整体鲁棒性。

语义回溯与解法回溯的性能差异。如表4所示,触发两种类型的方法均能提升多个基准测试的性能。语义回溯在感知任务上表现更优,而解法回溯则在数学任务上表现更佳。作者推测早期回溯有助于及时确认视觉线索,从而受益于感知任务。相比之下,将回溯推迟至CoT推理之后,能够实现更全面的验证,同时最小化对推理链的干扰,从而更适合数学任务。
6 相关工作
近年来,多模态复杂推理取得了显著进展,经历了四个主要阶段:早期显式模块探索、监督微调与测试时扩展、强化学习驱动的进步,以及多模态对齐和原生视觉推理能力的持续演进。
多模态推理的早期发展(Shao等人2024a;Zhang等人2023;Hu等人2024)。在多模态语言模型(MLLM)发展的早期阶段,多模态推理依赖于显式 Prompt 和多模块协作。例如,Visual-CoT(Shao等人2024a)采用推理链和视觉采样进行动态视觉推理。Visual-SketchPad(Hu等人2024)引入了包含视觉草图的三个阶段工作流程,以增强可解释性。与此同时,Multimodal-CoT(Zhang等人2023)提出了一种两阶段框架,将推理链生成与答案推理解耦。
监督微调与测试时缩放 (Xu等人 2024; Wang等人 2025e; Du等人 2025; Ma等人 2024; Yang等人 2025a; Kumar等人 2025; Yang等人 2024)。随着OpenAI O1等模型的出现 (Jaech等人 2024),基于大规模合成思维链数据的监督微调 (SFT) 成为主流。这一范式转变的核心特征是从基于模块的方法转向数据驱动方法。例如,Virgo (Du等人 2025) 通过利用不同长度的思维链数据动态调整推理深度。LLaVA-CoT (Xu等人 2024) 采用结构化推理模板,约束模型遵循多步推理过程。TACO (Ma等人 2024) 通过SFT数据应用动态规划策略进行工具调用学习。测试时缩放 (TTS) (Ma等人 2024; Kumar等人 2025; Muennighoff等人 2025; Zhang等人 2023) 在不更新模型参数的情况下进一步增强推理,为强化学习方法奠定基础。
强化学习突破(Lightman等人2023;Wang等人2025a;Meng等人2025;Zhang等人2025a;Park等人2025;Yu等人2025a;Li等人2025c;Liu等人2025d;Wang等人2025g;Yu等人2025b;Feng等人2025a;Liu等人2025c;Zhou等人2025;Wang等人2025f;Liu等人2025a;Xia等人2025;Yao等人2025;Ma等人2025)。DeepSeek-R1(Guo等人2025)的成功标志着复杂推理进入强化学习微调(RFT)的新时代。在多模态领域,DIP-R1(Park等人2025)探索了细粒度图像处理,而Perception-R1(Yu等人2025a)直接编码图像块,有效将测试时增强方法与RFT训练相结合。MM-Eureka(Meng等人2025)通过基于规则的 Reward 在视觉推理方面取得了显著进展。STAR-R1(Li等人2025c)、VL-Rethinker(Wang等人2025a)和InfiMMR(Liu等人2025d)进一步证明了强化学习在空间、医学(Chen等人2024a)和xx(Zhang等人2025c;Zhao等人2025a;Shen等人2025)推理方面的有效性。
视觉思维演化 (Wu and Xie 2024; Li et al. 2025a,b; Feng et al. 2025b; Zheng et al. 2025b; Su et al. 2025; Zhang et al. 2025d; Wang et al. 2025d; Chern et al. 2025; Wu et al. 2025b; Sarch et al. 2025; Wu et al. 2025a; Xu et al. 2025; Chen et al. 2025b; Zhang et al. 2025b; Gupta and Kembhavi 2023; Chung et al. 2025; Zhao et al. 2025b; Wang et al. 2025d; Fu et al. 2025; Shen et al. 2024)。近期研究趋势表明,多模态复杂推理不仅需要"语言思维",还需要"图像思维" (Zheng et al. 2025b; Sarch et al. 2025; Su et al. 2025; Zhang et al. 2025d; Wang et al. 2025d; Chern et al. 2025; Wu et al. 2025a; Zeng et al. 2025; Wang et al. 2025b)。在细粒度感知领域,Vstar (Wu and Xie 2024) 引入了 SEAL 框架,通过分层视觉搜索机制动态定位关键细节。DyFo (Li et al. 2025b) 模拟人类视觉搜索的动态聚焦机制,而 DeepEyes (Zheng et al. 2025b) 通过端到端强化学习实现视觉与文本推理的动态交互。在复杂空间推理方面,MVoT (Li et al. 2025a) 在推理过程中交替生成文本和图像,以视觉思维过程补充语言推理。Reflective Planning (Feng et al. 2025b) 利用扩散模型预测未来视觉状态,构建"预测-反思-校正"反馈循环。
与先前显式注入视觉信息的方法(Zheng等人2025b;Su等人2025;Zhang等人2025d;Wang等人2025d;Chern等人2025;Sarch等人2025;Wu等人2025a;Xu等人2025;Zhang等人2025b;Gupta和Kembhavi 2023)不同,Look-Back方法使模型能够自主学习何时以及如何重新聚焦于视觉输入,从而在不依赖显式视觉指导的情况下提升推理能力。
7 结论
在本工作中,作者观察到多模态大语言模型(MLLMs)在推理过程中能够自主地将注意力重新集中于视觉输入,而无需显式的视觉信息注入。基于这一见解,作者提出了Look-Back方法,通过结合监督微调和强化学习的两阶段训练过程,使MLLMs能够ego引导视觉反思。作者的实验表明,Look-Back显著增强了多模态推理能力,并在多个基准测试中取得了具有竞争力的结果。
参考
1\]. Look-Back: Implicit Visual Re-focusing in MLLM Reasoning
##### #类PPO强化学习三部曲
GRPO简化→DAPO修正→GSPO全面进化
从 GRPO 简化 PPO,到 DAPO 修正熵坍塌与训练噪声,再到 GSPO 全面进化,一文看懂三大算法如何层层递进解决奖励粒度、探索效率与 MOE 训练稳定性难题,掌握强化学习在 LLM 场景的最新进化脉络。
本文虽然标题中提到"类 PPO 算法",但更准确地说,DAPO 和 GSPO 都可以视作在 GRPO 框架下,针对不同任务场景的一系列演进方案。它们并非简单的替代,而是通过改进策略更新与约束机制,逐步修正了 GRPO 在实践中暴露出的若干缺陷。
这一脉络不仅揭示了算法间的继承关系,也能帮助我们更清晰地理解 PPO 系列方法在强化学习中的演化逻辑。
那么,GRPO 究竟存在哪些问题?DAPO 与 GSPO 又分别从哪些角度切入,提出了怎样的改进?接下来,我们就沿着这一条演进主线,逐步拆解背后的动机与机制。
01 PPO简单说明
为了后文内容连贯性,这里再简单介绍一下 PPO 算法,PPO 算法在 LLM 上的初始应用是作为模型输出内容的一种偏好调节,旨在使得模型输出更贴合人类偏好的回答内容。
在这个过程中需要让人类去针对问题进行排序标注,使用排序标注好的模型来训练奖励(RM)模型以及价值(Value)模型,一般初始的奖励模型和价值模型是同一个模型(也有使用不同模型的情况),区别在于 RLHF(人类偏好强化训练)过程中价值模型会进行参数更新,而奖励模型则仅进行推理输出奖励值。
下面是 PPO 中 Actor 模型,也就是我们目标主模型的强化学习训练目标函数:

优势函数
其中优势函数计算方式有很多种,其公式为:

需要注意优势函数中 是可以展开的,根据展开的方式不同也会存在非常多类型的优势函数,如果是 1 步展开即 TD(时序差分),如果全部展开到序列结束,则为 (蒙特卡洛),介于两者中间的为 GAE(广义优势估计)。不同展开方式各有优劣,具体可看上文连接(主要是方差与偏差)。
在 PPO 算法应用在 LLM 的 RLHF 训练过程中一般是存在 4 个模型,Actor 模型也就是训练的主模型,其训练的目标函数也就是上面的目标函数。
在对其训练中可以看到会计算优势函数 ,优势函数的简单理解就是在当前状态(LLM 上下文)情况下选择特定动作(选择哪个 token)相比较其他动作(vocab 中其他 token)带来的优势。
这里的 代表当前状态下具体选择的动作(action), 则代表当前状态选择具体价值后会带来多少潜在价值,而 则代表当前状态下所有动作潜在价值的期望,也代表了当前状态的潜在价值。二者差值则代表在当前状态下选择该动作相较其他所有动作均值的价值优势,因此也称为优势函数。
如果使用 TD(时序差分)方法来展开 ,则 ,这里的 代表状态 下选择动作 带来的价值收益(单步价值), 为奖励衰减因子,马尔科夫链的基础知识,这里不再解释。 代表执行动作后下一个状态的潜在价值。
优势函数中奖励值 需要使用提前训练的奖励模型来生成,因此奖励模型也就是 RLHF 算法中的第二个模型。
状态价值 及 需要一个价值模型来生成,因此价值模型也就是 RLHF 算法中的第三个模型。
第四个模型是参考模型,也是初始的 Actor 模型,在 RLHF 训练过程中参考模型不进行训练,仅作为 KL 散度约束 Actor 模型的输出分布不要离开初始的权重太多。这个模型的 KL 散度约束没有中主函数中进行体现。
以 GRPO 论文中的示意图来理解更准确(可以将上面文字与下图 PPO 算法示意图对照理解):

可以看到 PPO 算法涉及到了 4 个模型,更主要的是奖励模型需要提前进行训练,而价值模型也是一个 LLM,这就造成两个问题。
首先奖励模型的训练工作很复杂,虽然 DPO 算法可以通过绕过奖励模型的方案来训练,但 DPO 需要构造负样本,负样本与正样本的质量会影响训练的结果。
其次状态价值是由一个 LLM 给出的,这个值具备不确定性,也就是说价值模型提供的状态价值可能不准确,这样也就使得 PPO 训练过程变得极其脆弱。我们的目标是来最大化目标函数,价值模型预估偏差会使得 Actor 模型参数梯度往错误方向走一大步,很容易造成训练崩溃。
另外还有一点考虑,我们之前是对 LLM 输出内容进行人类偏好的强化学习训练,人类偏好本身是没有固定规则的,因此才需要去训练奖励模型来进行 LLM 输出内容是否符合人类偏好的打分。
但对于程序,数学等任务是具备规则特性的,对于一个程序任务或者数学任务,LLM 输出结果是可以使用规则来判断正确性的,这也是 GRPO 提出的一个前提。
02 GRPO
GRPO 中一般存在两个模型,主模型 Actor 模型以及参考模型,这两个模型初始时是同一个模型,但训练过程中参考模型只作为 KL 散度约束项来防止主模型训练中权重偏离原始模型权重太多。
PPO 中奖励模型更换成了特定的规则函数来进行奖励值打分,PPO 中的价值模型则直接取消,优势函数的计算更换成了 LLM 一组输出的奖励值标准化的形式。
GRPO 目标函数:

从公式中可以看到,对于一个输入 ,GRPO 会产生一组 个输出,对于这些输出会使用规则函数分别计算奖励值,即 ,使用这一组不同输出来计算优势函数 。
可以看到优势函数的计算只依赖于每个输出的结果奖励(结果奖励的意思是对整个输出序列即多个 token 进行整体的奖励值计算,但注意此时动作的粒度仍是单个 token,而不是整个输出序列)。
计算完每个输出的优势值,即 后,会将这个整体优势值均匀分配给该序列的每个 token,这么做还是因为 GRPO 的动作粒度是 token,后面进行重要性采样时是以 token 为粒度来进行计算的(重要性采样稍后会说)。也就是为什么优势值下标会带着时间步 t,实际上在计算时,同一个序列的每个 token 优势值是相同的。
GRPO 公式里也带上了 Actor 模型与参考模型的 KL 散度,KL 散度直观理解上十分简单,就是两个不同离散数据分布的相似程度,两个分布越相近则 KL 散度值越小,两个分布越大则 KL 散度值越大。
我们强化训练目标是最大化目标函数,因此需要减去这个 KL 散度值,如果目标模型训练过程造成与原始权重偏差较大,这时 KL 散度值变大,目标函数计算时会减去较大的 KL 值,因此使得整体目标值变小,来达到约束模型训练不过分偏移原权重的目的,反之亦然。
PPO 中目标函数也有这个 KL 约束,只不过省略掉了。
GRPO的问题与思考
GRPO 使得强化训练变得简单易行,但大家也能发现一些问题,每次训练时组的规模 取多大合适?如果该组内输出全错或全对怎么办?如果使得组内 个输出尽可能不一样?
这也是强化学习一直强调的"探索"与"利用"中的"探索","探索"在强化学习训练中是十分重要的,如果模型想获得更有的策略决策能力,也就是在不同状态下需要去选择更优的动作就需要去"探索"新的动作带来的收益。
因为强化学习训练本身就是一个通过不断试错来找到最优解的过程,如果在强化学习训练过程中让策略模型(也就是 Actor 模型)没有足够的"探索"能力(也就是模型输出不够多样)那模型就不会找的更好的路径,就会造成所谓的"熵坍塌"。
"熵坍塌"理解起来很容易,就是模型只在少量的输出中训练,这样使得模型输出分布变得越来越尖锐,模型分布会变得集中,分布的熵会变小。
因此 GRPO 训练中 应该更大一些(当然也需要分任务来说,有的输出范围本身就很小,分组规模也没必要大)。 中多样性也是通过不同的采样方法,不同温度超参数来进行采样控制。而如果同一组内模型输出都是错误的情况,那这个 step 训练过程来说也就变得没有意义。
其实 GRPO 还有个问题,就是极度依赖奖励函数,这也是对 PPO 精简后带来的一个显而易见的问题,去掉价值函数来对状态价值进行预估,仅使用奖励值来计算优势,那么就需要奖励值尽可能的公平公正。
对于简单任务来说不是很困难,但对于大多数实际任务来说,奖励函数是需要多方面权衡的,很难找到一个标准化的奖励函数去做奖励判断,如智能体任务中如果只将智能体任务完成与否来作为奖励值,那就没办法权衡智能体中间状态是否合理有效,是否有冗余轨迹等。
GRPO 训练甚至转变为去拟合奖励函数,换句话说会去钻奖励函数的空子,模型会为了获得高的奖励值生成与实际需要不符合的结果,因此奖励函数一定要综合权衡考虑。
GRPO 的奖励是序列级别,而动作是 token 级别,前面介绍了这是为了简化 PPO 算法带来的,但是这种动作与奖励粒度的不一致性其实会带来一些影响,后面 GSPO 会重点针对这个问题阐述方案。另外插个眼,GRPO 中的重要性采样是有问题的,具体的 GSPO 中会详细说。
关于重要性采样修正项在这里重点系统解释一下,方便后面说明,就是上述目标函数公式中的 ,重要性采样修正项的分母是旧策略模型产生的每个 token 的概率,分子则是经过几轮训练后新策略 prefill 旧策略输出得到的该策略中对应 token 上的概率值。
之所以使用重要性采样是因为强化训练轨迹是很珍贵的,一般情况下是需要多轮训练来提升利用率,这就使得当训练当前策略模型时会使用之前旧策略模型产生的轨迹。
而这两个模型实际上输出分布是不同的,那么如何对当前策略使用旧策略的分布,这就是重要性采样修正项的作用,注意重要性采样和重要性采样修正项不是一个概念,下面来介绍重要性采样。
重要性采样

假设存在两个数据分布, 和 ,可以使用下面等式将两个分布的期望连接起来,里面 称为重要性权重修正项,做为两个分布之间的修正项。

上式中 代表旧策略的分布,也就是 Actor 模型做 Rollout 的分布,而 代表训练中新策略模型的分布,我们当前仅知道旧策略分布情况(即之前 Rollout过程),但我们目标是使得当前训练策略模型目标函数更高,但我们又不知道新策略模型的分布情况(因为没有 Rollout),听起来很绕,可以多读几遍。
因此需要使用旧策略分布来表示新策略分布,即使用 来表示 。看公式的期望下标,经过重要性采样成功使用旧策略的分布来表示新策略。返回 PPO 和 GRPO 目标函数公式也可以看到,最外层的期望是旧策略模型的分布,不是新策略模型分布。
但是有一点,重要性采样只是让两个分布在期望上达到了统一,但没有在方差上统一。
根据方差计算公式:

即使两个分布期望相同也只是上面公式的后面一项相同,两个分布的方差还是不同的。
这也是为什么从 PPO 或者更早 TRPO 开始需要增加 clip 项和 min 来控制这个重要性采样修正项,实际上是在控制两个分布的方差不要差距太大。
上面几个问题实际上是后面几个想要解决的,当然新算法也有其他的创新前提。
重要性采样的补充思考
在这里再额外补充一个概念,就是 **on policy 和 off policy**,在 LLM 的 RL 训练可以这样理解:当生成采样数据的模型与使用采样数据进行训练的模型是有相同权重(也就是同一个模型)时,换句话说就是自己产生数据来训练自己,这样叫做 on policy。
相反,如果使用其他模型或者非目标模型产生的数据来训练就属于 off policy。如果是 on policy 的话,上面的重要性修正项的值就为 1,因为相同模型会具有相同的数据分布,只有 off policy 情况下才会提现出重要性采样的价值。
一般在 LLM 的 RL 训练中不会使用 on policy,这一点主要从训练效率出发的,一般会使用 Actor 模型 Rollout 一大批的样本出来,将这一大批样本分为几个训练批次来进行训练。
这个过程中只有第一个批次样本进行训练时是 on policy 的,这个时候重要性采样修正项的比值大概为 1(考虑随机性波动),也就不起作用,但后面几个批次的目标模型权重已经发生了变化,再使用之前采样的数据进行RL训练就属于 off policy 了。
从算法理论上来说,如果不计较训练损耗,一直使用 on policy 来训练,GRPO 结论可能也未必会好,因为 GRPO 的问题在于动作粒度与奖励粒度的不均衡,在对 GRPO 目标函数计算梯度时每个 token 具有相同的优势值。
GRPO 梯度公式:

这时候主要的梯度贡献其实是重要性采样修正项的值,如果这个值为 1 的话,GRPO 每个 token 就只剩下了相同的优势值,其实这样就退化成了 SFT 训练的交叉熵梯度。
也就是每个 token 是具有相同奖励的行为克隆,因为从强化学习策略梯度定理角度来看,RL 相对于 SFT 梯度公式最大的区别在于每个动作(token)是具备不同优势值的。
03 DAPO
DAPO 引言部分就提到了其训练 GRPO 时出现了熵坍塌、训练不稳定、奖励噪声的问题,这也对应了上面我们分析的几个 GRPO 固有缺陷,这一点 DeepSeek 应该是有应对的 Trick,但论文中并没有提到。
DAPO 是字节的工作,因此开源代码也就使用的 verl,其针对 GRPO 存在的问题提出来解耦裁剪和动态采样策略优化(Dynamic sAmpling Policy Optimization DAPO)。
另外 DAPO 应对的场景是长 COT 场景, 也就是带思考模式的输出情况(上面也提到,当生成序列如果很长,重要性采样修正项会造成方差偏移的累积)。
下面是 DAPO 针对 GRPO 做的修正工作:
移除KL散度
上面的 PPO 及 GRPO 目标函数中都存在 Actor 模型与参考模型的 KL 散度,KL 散度的意义也说过了,就是不想让训练的模型与最初始模型分布差距太大。
但 DAPO 的训练方案应对场景是有长思维链输出(带思考过程)情况,长输出也就代表着对于输出 token 分布调整更大,那么训练后的模型就必然会与原始模型存在很大差异,因为目标就是让他们有差异,因此KL散度的约束反而不是必需的了,所以可以移除。
DAPO公式及创新点

从公式上看与 GRPO 整体相差不大,但有一些小细节的改动。
提高上限------Clip-Higher
首先改动是 clip 函数中的 ,在 PPO 及 GRPO 中都使用一个固定的超参数 (一般是 0.2),但 DAPO 中分化成了 和 ,DAPO 论文中叫提高上限 --Clip-Higher
可以看到 clip 裁剪的对象是对重要性采样修正项进行裁剪,裁剪函数的图像示意如下:

为了方便理解裁剪函数实际含义可以简化为下面公式:

其中 代表重要性采样修正项, 代表 代表 。因此整体含义就十分好理解了。
OK,解释完裁剪函数后来看一下 DAPO 为什么要使用这种非对称的裁剪方案。
首先背景前提是模型根据指令会自回归的生成带思考过程的输出内容,每一个 token 被选择的概率是依赖于之前 token 内容的,而且根据当前主流的采样方式(核采样,top-k,贪心等)在都会去选择概率较高的 token。
而 GRPO 是对整个序列来计算奖励值与优势值的,这就使得在进行目标函数计算时每个 token 的优势值都一样,假设某条序列的优势值是正值,则训练的目标就是对该序列中的每个 token 都要正向的训练。
训练的结果就是要提升每个 token 在前置 token 中被采样的概率,使得模型输出多样性会进一步减小,造成整体输出分布熵的减小,也就是熵坍塌。那么为什么要提高裁剪高值可以缓解这个问题呢?下面展开说一下。
我们裁剪的对象是重要性采样比值,这个比值是新策略模型生成某个 token 与旧策略模型生成某个 token 的比值,当旧策略模型生成某个 token 的概率本身比较高时,其被裁剪的概率就会变低;而如果旧策略模型生成某个 token 的概率本身比较低时,其被裁剪的概率就会变高。
这么说可能有点绕,举个例子,比如旧策略采样到某个 token 的概率是 0.9,按照裁剪上限 1.2 计算 ,则新策略采样到该 token 的概率是接近于 1(0.9_1.2 但最大为 1)。
注意新策略是我们训练目标函数期望的概率分布,也就是说旧策略中本身高概率的那些 token 是不容易被上限裁剪的,哪怕新策略下这个 token 采样概率很高了也容易被裁剪。
反之当旧策略采样到某个 token 概率是 0.1 时(一般情况下低概率 token 不容易被采样到,但强化训练 Rollout 会具备一定随机性),如果同样的现在裁剪上限是 1.2,那么新策略下这个 token 最高的采样概率也就是 0.1_1.2=0.12。
也就是说对于旧策略概率低的 token,即使训练后这个 token 的采样概率也不会有很大提升,因为提升上限被裁剪限制了。这样一对比,(0.99-0.9)\>\>(0.12-0.1)是不是就很明显的看到差距了。
这也是为什么 DAPO 要提升裁剪上限,因为不这样做的话,本来旧策略模型采样概率高的 token 会随着训练变得采样概率越来越高,而低的 token 只会有很小的提升,那么结果就是模型输出的分布越来越尖锐,也就使得分布的熵变低,造成熵坍塌现象。

上面是论文中的贴图,作者统计了哪些旧策略采样 token 容易被裁剪,可以发现,这些被裁剪的 token 的采样概率集中在 0.1-0.2 范围内,也证明了就是这些本身概率低的 token 容易被上限裁剪。
强化学习的训练过程一直以来的宗旨就是要平衡"探索"与"利用",既要"利用"好已经有的经验来找到好的策略方案,又要去"探索"新的动作及状态,看是否存在更优的策略,上面的熵坍塌现象就会使得训练过程不能更好的去"探索",无法找到更优策略。
前段时间忘记在哪里听到了一个座谈会,就是当下的强化训练算法都是使得模型输出的 pass @k 转为 pass@1,也就是没有更好的去探索新的可能性,而是让模型从原来可能的输出序列中去稳定生成最优的那一个。
本质上没有脱离模型能力范围,这其实与强化学习的思想相矛盾,强化学习是让模型去学习能力范围以外的知识来找更优策略,从这一点来说,GRPO 及以此提升的算法其实都没有更好的让模型去"探索"。
动态采样
DAPO 第二个创新点就是动态采样,前面对 GRPO 思考中提到过,如果 GRPO 对某一组输出的结果全是错误,或全是正确的情况下,这样组内的每个样本序列计算后的优势都是 0,因为本身就是每个样本序列奖励值与组内均值的差值最标准化,均值就等于样本奖励值的时候那么就没有优势了。
那就会造成这一组的训练不会对模型梯度变化有任何贡献,就代表本组训练没意义了。但一个问题就是当我们训练到后期就会面临一个组内很可能全正确的情况,这种情况出现的很自然,因为我们训练目标就是让模型输出序列的奖励值更高。这就使得后期的训练中有很多的组是没有意义的,白耗费训练资源。

上图是 DAPO 作者发现训练中一组32个输出全部正确的比例,训练越往后一个组内全部正确的比例越高。
除了耗费训练训练资源之外还会带来一个问题,假设我们有每个批次有 N 个指令来进行 GRPO 训练,这 N 个指令有的容易一些,有的难一些,模型在训练后期很可能在这 N 个指令中有 50% 的指令输出的组内序列全部正确,也就代表有一半的指令训练是没有意义。
随着模型训练到后期,每个批次中全为 1 的指令占比会更高。这会使得强化学习训练方差变大,因为我们输入指令让模型产生组内输出的过程实际是生成旧策略模型输出分布的过程。
只有指令足够多,旧策略模型输出的序列足够多才能更准确的表示旧策略的输出分布,当有效指令变少的时候,旧策略模型输出的分布也就存在一定的偏移,换句话说就是存在方差,也就是说 GRPO 越到训练后期训练的方差偏移越大。
关于解决这个问题 DAPO 也是简单粗暴,对于批次内生成的组内序列全部正确或错误的指令直接剔除掉,使用新的输出组中不全是错误或正确的指令来补充上,直到补全这个批次。
这个方法粗看会影响训练效率,因为你需要让每条指令去生成一个组,再去使用奖励函数判断才能知道输出的组中序列是否全部正确或错误,但是作者实验发现这种方法可以更快的让模型收敛,也就是说可以平衡掉 GRPO 耗费的资源,甚至更优。
下图是对照实验,紫色是使用动态采样的方案,蓝色是不使用动态采样的方案,很明显紫色更快收敛。

重新平衡动作:token级别策略梯度损失
在 GRPO 训练中针对每个指令输出一组的序列样本,这一组训练样本是有长有短的(token 个数),但不管 token 长度多少,组内每个样本是最后求平均值,也就代表每个样本具备相同的权重系数,即每个序列样本对本次训练的重要性是相同的。
这里可以比较一下 GRPO 与 DAPO 的外层求和与均值算法。
举个简单例子,假设 大小为 2,一个序列 token 长度为 100,这个序列的优势值是 1,另一个 token 序列长度为 10,这个序列的优势值为 -1,为简单起见不考虑裁剪,重要性采样修正的操作。
如果使用 GRPO 计算,则最后的结果为 0(此时只代表目标函数值标量为 0,但反向传播是看的梯度,梯度一般不为 0),而如果使用 DAPO 计算则结果为,在计算过程中大家就能感受到如果使用 GRPO 的方法是没有考虑 token 粒度的。
也就是说在同一个样本中每个 token 所占的权重系数随着 token 长度的增加而减小,这样的话模型输出序列的长度越长,每个 token 在训练中对应的概率调整的幅度就越小。
如果还是不太懂的话可以从策略梯度定理的角度来看,我们分别对 GRPO 和 DAPO 的目标函数算梯度公式。
GRPO 梯度公式:

DAPO 梯度公式:

从梯度函数中可以更明显的看到 GRPO 中样本级别与 DAPO 中 token 级别计算的区别,从梯度的角度可以更好理解 GRPO 长 token 序列对于每个 token 权重的稀疏化对于梯度计算的实际影响。与上面同样的理解,不再赘述。
另外还有一点是可以从梯度公式上看出来:对于一个每个 token 的梯度贡献来说,由于每个 token 的优势都是相同的,那么主要贡献值其实就来自于这个 token 的重要性采样修正项。
而且从梯度公式后面看到(大括号内)一旦该 token 的重要性采样修正项被 clip 裁剪,那么这个 token 实际上对于梯度更新是没有任何作用的,也就是说被裁剪的 token 实际上对于 GRPO 训练没有任何帮助,从这一点上来重新思考 DAPO 去提升 Clip 裁剪上限也是有意义的。
GRPO 这个问题的影响是长 token 序列的训练中每个 token 的修正幅度慢,比如对于长思维链的输出,假如最终推导结果正确,无论思维的过程很优质还是思维过程很差,该组的训练都不会对中间过程的 token 有较大的修正,比如优质内容的 token 采样概率应该增大,很差的思维过程 token 采样概率应该减小。
而 DAPO 的修正方案是对组内全部 token 赋予相同的权重系数,这样就可以从 token 粒度来进行梯度的更新,解决上述问题。

上图是对照实验,紫色是 DAPO 在 token 级别计算损失,蓝色是样本级别计算损失,可以明显看到紫色曲线无论生成分布的熵值还是输出内容长度都更平稳。
长序列的奖惩
这一部分并不是针对 GRPO 公式的修正,而是对于带思考过程的长序列训练的一个 trick,其背景在于一般情况下在进行训练时考虑到模型输出长度限制会对于很长的内容进行截断。
对于被截断的内容直接粗暴的给一个惩罚分值(负分),但忽略了可能这个长序列推导过程是正确的只是有点啰嗦,这种直接给负分会使得模型误认为这个推理逻辑是错误的。
因此 DAPO 做了个动态的长度奖惩机制,让模型训练有个缓存,可以意识到是长度带来的惩罚而不是逻辑内容错误带来的惩罚,具体动态惩罚函数:

这个函数没有什么可说的,简单明了。
整个 DAPO 是对 GRPO 的修正,提出了 4 个创新点,附上伪代码,读起来一目了然:

04 GSPO
GSPO 全称是 Group Sequence Policy Optimization,组序列策略优化。是qwen3 团队的工作,该工作也是对 GRPO 的改进,不同于 DAPO 是应对带思考的长文本场景,GSPO 应对的场景是 MOE 模型的训练(当然还有对 GRPO 算法的一般性改进,参考前文 GRPO 的思考)。
优化背景
GSPO 提到的一个 GRPO 关键性缺陷在于重要性采样修正项使用的粒度不对,GRPO 中是对序列中每个 token 进行的重要性采样,因为动作的粒度是 token,但是奖励却是对整个序列的奖励,这样会造成一种逻辑冲突的问题。
其实这个问题其他论文中也讨论过(忘记哪篇论文了),我们训练优化的目标是 token 的采样概率,这一点使用 token 作为动作粒度可以理解。但 GRPO 却是对一个序列整体奖惩,优化单元与奖惩单元粒度上不一致时的模型训练就容易出现偏差。
其实上面这个观点如果站在未简化的强化学习算法的角度上来讲(PPO 或者 A2C),优势应该是动作级别的,但是对于 LLM 的自回归输出场景来说动作级别的优势是不太容易计算的,上面介绍 RLHF 的时候也提到了,需要有奖励模型和价值模型。
但 GRPO 的简化方案使得每个 token 共享该序列整体的优势值,那粒度上对不齐也是必然的。从理论上来说带来的结果就是无法从 token 粒度上更快速的让模型提升正确 token 的采样概率。
就比如重要性采样思考中提到的如果使用 GRPO 进行 on policy 训练,当不可以重要性采样修正项时,从目标函数梯度上看 GRPO 的 on policy 训练就成了 SFT 训练,对每个 token 一视同仁。
除了上面问题外还有一个很重要问题是关于重要性采样修正项本身的,在上文中详细介绍了重要性采样的概念,这个概念是围绕两个分布展开的,涉及到分布,在统计学上是使用大数定律来近似一个分布的。
通俗点说就是需要随机采样非常多的样本才能用这些样本的概率分布来近似整体的分布,在传统强化学习中也有蒙特卡洛方法(可以理解成随机采样)来近似模型的策略分布。
但 GRPO 中的重要性采样修正项是如何计算的呢?它是计算新旧两个模型在某个 token 位置输出一个特定 token 的概率,使用这 1 个特定 token 样本的概率来代替该 token 位置的整个动作空间分布的概率,这样就极容易造成方差偏移的问题(这是上面介绍重要性采样方差公式的具体场景)。
这个实际 token 的概率很困难随机性原因偏高或偏低(也就是方差),随着输出序列的增长,这种方差是会累积的(因为自回归的特性,每个 token 的采样概率依赖之前 token),前面有 GRPO 目标函数的梯度公式,对组内每个样本 token 会累加求均值,方差累积后求均值是不会消失的。
除了以上的内容,GSPO 算法的出发点其实源自于 MOE 模型与 Dense 模型的区别,在 Dense 模型上使用 GRPO 训练模型不会有很大训崩的概率,但 MOE 模型上训崩概率很大。从下图示意原因就很明显:

区别在于新旧两个模型在进行序列中每个 token 概率计算时会被专家路由器路由到不同的专家模块,这样的话会造成重要性采样修正项变得极其不稳定,很容易被裁剪,被裁剪就会使得这个 token 在训练中没有任何的梯度贡献。
还有一点使用旧策略模型激活的专家获得的分布来训练当前策略激活的专家梯度,这样训练到最后会使得专家功能混乱,基于以上原因可以得出结论,在 MOE 模型上使用 token 作为优化的动作粒度是不合理的。
GSPO算法
上面的背景中问题的本质就是奖励粒度与优化的动作粒度不一致问题,很自然的想法就是既然无法将奖励粒度细化到 token 的动作粒度,那能不能将动作粒度上升到奖励的序列粒度?
也就是重要性采样修正不再对应 token 级别,而是对应序列级别,这也是 GSPO 做的工作。
GSPO 目标函数公式:

其中:

从 GSPO 目标函数公式可以看到与 GRPO 最大的区别就是在重要性采样修正项的处理上,也就是这里的 。
这里 代表的是一个序列中每个 token 的重要性采样累乘后的值进行几何平均,也就是说括号中的 (注意 的下缀中不再有 ) 是这个序列中每个 token 的重要性采样修正项的乘积结果,然后按照序列中 token 的个数来求几何平均。后面这一项是一个恒等式,在实际计算时会使用后者进行计算。
GSPO 的关键创新点就是将每个 token 的重要性采样修正改成了序列级别,目的是为了避免单个 token 带来的随机性极值引发较大的方差问题,再进行几何平均后会一定程度上消除这个序列中少量的几个 token 带来的方差偏移,相对于 GRPO 那种将每个 token 的重要性采样修正的形式更优。
上面这段话大家可能还是困惑,这里举两个例子,正确的序列内容,和存在偏差较大的错误序列内容。
正确的序列内容情况下:假设每个 token 的重要性采样修正项为:\[1.1, 1.1, 1.2, 1.05, 1.1\],因为新旧策略模型没有出现极值概率情况,内容正确,因此优势值为 +1。
此时 GRPO 在 token 粒度上对每个token都进行了鼓励,这没有问题,GSPO 的算数平均值为 1.109,也是对这个序列进行鼓励,在正确序列上二者都没有问题。
错误序列内容情况下:
假设每个 token 的重要性采样修正项为:\[1.1, 1.1, 0.1, 0.1, 1.1\],第三个和第四个 token 可能是旧策略出现的极值影响造成错误,由于内容错误,优势值为 -1。
此时 GRPO 会对第 1,2,5 个惩罚权重为 -1.1,但对错误的 token 惩罚权重只有 -0.1,这显然对于模型训练不利。
而 GSPO 的粒度是整个序列,这是这个序列几何平均为 0.425,乘 -1 的优势值后是 -0.425,代表了整个序列是错误的,应该惩罚,但惩罚大小是根据训练中错误 token 及 token 错误情况计算的。
综上内容大家应该理解了为什么 GSPO 要使用每个 token 重要性采样修正项的几何平均做完整体序列的重要性采样修正项。
其实到这里 GSPO 的主要内容就已经结束了,后面做了一些补充证明,比如证明 GSPO 在 token 级别上的形式,梯度分析等。
说到梯度分析,可以在这里说一下GSPO公式的梯度,如下图:

我们依然可以看到前面提到的问题,对于 GSPO 来说,当使用序列为单位做重要性采样时会发现序列中每个 token 中梯度上的贡献是一样的,其实对于就弱化成了交叉熵的梯度,相对于对这个序列进行 SFT 训练(前提优势是正值,值越大这个序列梯度重要性越大)
至于 GSPO 后面提到的 GSPO-token,个人感觉没有太大分析的必要,只是又从 token 角度上推导了一下公式,理解上没有什么区别。
.
##### #DeepSeek V3.1 Base突袭上线
击败Claude 4编程爆表,全网在蹲R2和V4
就在昨晚,DeepSeek官方悄然上线了全新的V3.1版本,上下文长度拓展到128k
本次开源的V3.1模型拥有685B参数,支持多种精度格式,从BF16到FP8。
综合公开信息和国内大咖karminski3的实测,V3.1此次更新亮点有:
* **编程能力:**表现突出,根据社区使用Aider测试数据,V3.1在开源模型中霸榜。
* **性能突破**:V3.1在Aider编程基准测试中取得71.6%高分,超越Claude Opus 4,同时推理和响应速度更快。
* **原生搜索:**新增了原生「search token」的支持,这意味着搜索的支持更好。
* **架构创新**:线上模型去除「R1」标识,分析称DeepSeek未来有望采用「混合架构」。
* **成本优势**:每次完整编程任务仅需1.01美元,成本仅为专有系统的六十分之一。
值得一提的是,官方群中强调拓展至128K上下文,此前V3版本就已经支持。
对于这波更新,大家的热情可谓是相当高涨。
即便还未公布模型卡,DeepSeek V3.1就已经在Hugging Face的趋势榜上排到了第四。
DeepSeek粉丝数已破8万
看到这里,网友们更期待R2的发布了!
**混合推理,编程击败Claude 4**
这次最明显的变化是,DeepSeek在官方APP和网页端上,把深度思考(R1)中的「R1」去掉了。
同时,与V3-base相比,DeepSeek V3.1新增了四个特殊Token:
* \<|search▁begin|\> (id: 128796)
* \<|search▁end|\> (id: 128797)
* \