51c大模型~合集171

自己的原文哦~https://blog.51cto.com/whaosoft/14132245

#Time Is a Feature

dLLM的「Free Lunch」！浙大&蚂蚁利用中间结果显著提升扩散语言模型

本文第一作者王文，浙江大学博士生，研究方向是多模态理解与生成等。本文通讯作者沈春华，浙江大学求是讲席教授，主要研究课题包括xx智能、大模型推理增强、强化学习、通用感知模型等。

近年来，扩散大语言模型（Diffusion Large Language Models, dLLMs）正迅速崭露头角，成为文本生成领域的一股新势力。与传统自回归（Autoregressive, AR）模型从左到右逐字生成不同，dLLM 依托迭代去噪的生成机制，不仅能够一次性生成多个 token，还能在对话、推理、创作等任务中展现出独特的优势。当你还在等传统 LLM「一个字一个字」地憋出答案时，dLLM 早已通过几轮迭代「秒」出完整结果，带来前所未有的生成效率。

然而，速度的提升并不意味着完美的答案。现有 dLLM 的解码策略往往只关注最后一次迭代的生成结果，直接舍弃了中间多轮迭代中蕴含的丰富语义与推理信息。这些被忽视的中间预测，实际上可能暗藏着更准确、更接近真相的答案。一旦被丢弃，不仅造成信息浪费，还可能让模型错失做对题目的最佳时机。

更令人意外的是，研究团队在数学推理任务中观察到了一种「先对后错」的现象：模型先是得出了正确答案，却在随后的迭代中将其「推翻」，转而采用错误答案，最终导致整体回答错误。以下图为例，模型在第 55 步时明明已经得到正确的 25，却在后续生成中改成了 2，并一直坚持到最后也未能修正。

正是基于这一关键观察，来自浙江大学的研究团队从时序视角切入，提出了 Temporal Self-Consistency Voting 与 Temporal Consistency Reinforcement 两种方法，对模型的性能进行优化与提升。

论文标题：Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models

论文地址：https://arxiv.org/abs/2508.09138

项目主页：https://aim-uofa.github.io/dLLM-MidTruth/

Github：https://github.com/aim-uofa/dLLM-MidTruth

Huggingface Paper：https://huggingface.co/papers/2508.09138

Temporal Self-Consistency Voting：从时间维度「抓住」模型最靠谱的答案

在传统的自回归（AR）模型中，majority vote 通常需要针对同一个 prompt 多次生成完整回答，再根据出现频率选出最高票的答案。虽然这种方法在提升准确率方面有效，但代价是成倍增加计算开销，往往需要耗费数倍的推理时间与资源。

而研究团队结合 dLLM 的迭代生成特性，提出了 Temporal Self-Consistency Voting (TCV) 方法。它不必额外生成多条回答，而是直接利用 dLLM 在去噪过程中每个时间步的中间结果，进行一次「时间轴上的投票」来选出最终答案。考虑到 dLLM 在迭代去噪中理论上会逐渐趋于稳定与确定，TCV 还为不同时间步的结果分配了不同权重，从而更精准地捕捉最可靠的预测。

该方法的主要创新之处在于，它巧妙地将「多数投票」理念与 dLLM 的时间维度信息结合起来，实现了几乎零额外计算成本的性能提升，同时充分挖掘了中间预测中的潜在价值。

Temporal Consistency Reinforcement：

用时序一致性训练出更稳的 dLLM

研究团队针对 dLLM 的中间预测结果，创造性地提出了 Temporal Semantic Entropy (TSE) 这一概念。TSE 通过计算模型在不同迭代步骤中预测结果的语义熵，来衡量生成过程中的一致性程度。直观来说，熵越低，说明模型在迭代中越稳定、越坚定自己的选择；熵越高，则意味着生成路径摇摆不定、易于被干扰。

在实验分析中，他们发现了一些颇具规律性的现象：在相对简单、模型准确率较高的数据集（如 GSM8K 和 SVAMP）上，TSE 值普遍较低；而在同一个数据集中，模型答对的问题的 TSE 往往显著低于答错的问题。这一发现表明，稳定的生成路径往往与更好的任务表现高度相关。

基于这一洞察，研究团队提出了 Temporal Consistency Reinforcement (TCR) 方法，将 TSE 直接作为奖励信号，引导模型在训练中主动降低 TSE，从而提升生成路径的稳定性。进一步地，他们还利用 scoring rule，将 TSE 与传统的正确性奖励相结合，实现「双重监督」------既让模型追求正确答案，又保持推理过程的一致性，最终训练出更稳定、性能更优的 dLLM。

实验结果

研究团队在三个主流数学推理数据集（GSM8K、MATH500、SVAMP）以及一个逻辑推理数据集（Countdown）上进行了系统测试。结果显示，Temporal Self-Consistency Voting 几乎不增加额外计算成本，就能在多个数据集上稳定带来性能提升，验证了从中间迭代中挖掘信息的有效性。

与此同时，Temporal Consistency Reinforcement 的表现同样令人惊艳------仅仅利用 Temporal Semantic Entropy (TSE) 作为唯一奖励信号，就能在 Countdown 数据集上实现 24.7% 的显著提升。更进一步，当将 TSE 与传统的正确性奖励结合时，不仅在 Countdown 上提升至 25.3%，在 GSM8K、MATH500、SVAMP 上也分别取得了 +2.0%、+4.3%、+6.6% 的绝对增幅，全面超越了仅依赖正确性奖励的效果。

训练后模型性质分析

研究团队对训练后模型进行分析发现：模型生成更稳定、输出更简洁。具体表现为：

时间一致性提升：生成过程更稳，中间预测波动减少；
仍有提升空间：虽然表现更好，但模型在中间预测上仍有可优化空间；
输出更精炼：有效 token 数下降，答案更简短，可能也更不容易「自打脸」。

这表明，通过 Temporal Consistency Reinforcement，不仅让模型跑得快，也更能稳稳抓住正确答案。

总结

总体来看，这项工作揭示了 dLLM 生成过程中的「先对后错」现象，并提出了两种创新方法------Temporal Self-Consistency Voting 和 Temporal Consistency Reinforcement。它们利用中间预测的时间一致性和语义稳定性，不仅显著提升了模型在数学与逻辑推理任务上的表现，也为未来挖掘 dLLM 潜力提供了全新的思路。

#TREAD

DiT在数学和形式上是错的？谢赛宁回应：不要在脑子里做科学

「兄弟们，DiT 是错的！」

最近一篇帖子在 X 上引发了很大的讨论，有博主表示 DiT 存在架构上的缺陷，并附上一张论文截图。

图 1. 我们引入了 TREAD，这是一种能够显著提升基于 token 的扩散模型骨干网络训练效率的训练策略。当应用于标准的 DiT 骨干网络时，我们在无引导 FID 指标上实现了 14/37 倍的训练速度提升，同时也收敛到了更好的生成质量。

图中横轴代表训练时间（以 A100 GPU 的小时数为单位，log 尺度，从 100 小时到 10000 小时），纵轴代表 FID 分数（越低越好，代表生成图像质量越高）。

博主认为，这个图的核心信息不是 TREAD 的速度优势，而是 DiT 的 FID 过早稳定，暗示 DiT 可能存在「隐性架构缺陷」，导致其无法继续从数据中学习。

博主提到的论文发表于今年 1 月（3 月更新 v2），介绍了一种名为 TREAD 的新方法，该工作通过一种创新的「令牌路由」（token routing）机制，在不改变模型架构的情况下，极大地提升了训练效率和生成图像的质量，从而在速度和性能上都显著超越了 DiT 模型。

具体而言，TREAD 在训练过程中使用「部分令牌集」（partial token set） vs 「完整令牌集」（full token set），通过预定义路由保存信息并重新引入到更深层，跳过部分计算以减少成本，同时仅用于训练阶段，推理时仍采用标准设置。这与 MaskDiT 等方法类似，但更高效。

论文标题：TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training

论文地址：https://arxiv.org/abs/2501.04765

代码：https://github.com/CompVis/tread

博主在后续回复中逐步展开了对 DiT 的批判，并解释 TREAD 如何暴露这些问题。

博主指出，该论文揭示了 DiT 模型的设计缺陷。具体来说，研究发现在训练过程中，如果将模型中的一部分计算单元替换为「恒等函数」（Identity Function）------ 也就是让这些单元什么计算都不做，仅仅是「直通」数据，相当于被临时禁用了 ------ 模型的最终评估分数反而会提高。

接着博主指出 DiT 的两个「可疑」的设计：

整个架构都使用「后层归一化」（Post-LayerNorm）

博主认为 DiT 使用了一种已知不太稳定的技术（后层归一化），来处理一个数值范围变化极其剧烈的任务（扩散过程）。

adaLN-zero

博主认为，这个模型虽然整体上自称是「Transformer」架构，但在处理最关键的「指导信息」（即条件数据）时，并没有使用强大的 Transformer，而是用了一个非常简单的 MLP 网络（多层感知机）。

更具体地，adaLN-zero 通过完全覆盖注意力单元的输入，并注入任意偏置来覆盖输出，这限制了模型的表达能力，相当于「讨厌注意力操作」（hate the attention operation），从而削弱了 DiT 的整体潜力。

博主还提到与早期论文相关的 LayerNorm 研究，指出 LayerNorm 的偏置和增益参数可能对梯度调整影响更大，而非真正改善模型性能。他认为，adaLN-zero 正是利用了这一点，名为「梯度调节」，实则像是在「给小模型偷偷注入过拟合的偏置」。

论文标题：Understanding and Improving Layer Normalization
论文地址：https://arxiv.org/abs/1911.07013

看了这篇帖子，DiT 的作者，纽约大学计算机科学助理教授谢赛宁有些忍不住了。

在 2022 年，谢赛宁发表了 DiT 的论文，这是扩散模式首次和 Transformer 相结合。

论文标题：Scalable Diffusion Models with Transformers
论文链接：https://arxiv.org/pdf/2212.09748

在 DiT 问世之后，Transformer 逐步代替原始扩散模型中的 U-Net，在图像和视频生成任务中生成高质量的结果。

其核心思想是采用 Transformer 代替传统的卷积神经网络作为扩散模型的主干网络。

这一方法业已成为 Sora 和 Stable Diffusion 3 的基础架构，同时也确定了 DiT 的学术地位。

在 DiT 论文刚刚问世时，就已接连受到质疑，甚至以「缺乏创新」为由被 CVPR 2023 拒稿。

这一次面对 DiT 在数学和形式上都「是错的」的论调，谢赛宁发推做出了几点回应。

从字里行间来看，谢赛宁对这个帖子多少有些情绪：

我知道原帖是在钓鱼骗点击率，但我还是咬一下钩......

坦白讲，每个研究者的梦想其实就是发现自己的架构是错的。如果它永远都没问题，那才是真正的大问题。

我们每天都在用 SiT、REPA、REPA-E 等方法试图打破 DiT，但这需要基于假设、做实验、进行验证，而不是只在脑子里扮演式地做科学...... 否则，你得出的结论不仅仅是错的，而是根本连错都谈不上。

也难怪谢赛宁语气有些不善，原帖博主的一些说法可能有些拱火的嫌疑：

谢赛宁也从技术角度对于原帖子提出的一些问题进行了回复，在对原帖的部分问题进行了反驳后，他也同样说明了 DiT 架构目前存在一些硬伤。

截至今天，DiT 的问题：

tread 更接近于 stochastic depth，我认为它的收敛性来自正则化效应，这让表示能力更强（注意推理过程是标准的 ------ 所有模块都会处理所有 token）；这是非常有意思的工作，但和原帖说的完全不是一回事。
Lightning DiT 已经是经过验证的稳健升级版（结合了 swiglu、rmsnorm、rope、patch size=1），有条件就应该优先使用它。
没有任何证据表明 post-norm 会带来负面影响。
过去一年最大的改进点在于内部表示学习：最早是 REPA，但现在有很多方法（例如 tokenizer 层面的修正：VA-VAE / REPA-E，把语义 token 拼接进噪声潜变量、解耦式架构如 DDT，或者通过分散损失、自表示对齐等正则化手段）。
始终优先采用随机插值 / 流匹配（SiT 在这里应该是基线）。
对于时间嵌入，使用 AdaLN-zero；但遇到更复杂的分布（如文本嵌入）时，应采用交叉注意力。
不过要用对方式 ------ 采用 PixArt 风格的共享 AdaLN，否则会白白浪费 30% 的参数。
真正的「硬伤」其实是 DiT 里的 sd-vae：这是显而易见却长期被忽视的问题 ------ 它臃肿低效（处理 256×256 图像竟需要 445.87 GFlops？）、不是端到端的。像 VA-VAE 和 REPA-E 只是部分修复，更多进展还在路上。

评论网友也对回应中提到的技术细节感兴趣，谢赛宁也都对相关疑惑做出了回复：

算法的迭代进步总是伴随着对现有算法的质疑，虽说所谓「不破不立」，但 DiT 仍然在擂台中央，不是么？

#LongVie

Sora没做到的，LongVie框架给解决了，超长视频生成SOTA

从 Sora 的惊艳亮相到多款高性能开源模型的诞生，视频生成在过去两年迎来爆发式进步，已能生成几十秒的高质量短片。然而，要想生成时长超过 1 分钟、内容与运动可控、风格统一的超长视频，仍面临巨大挑战。

为此，上海人工智能实验室联合南京大学、复旦大学、南洋理工大学 S-Lab、英伟达等机构提出 LongVie 框架，系统性解决可控长视频生成中的核心难题。

项目主页：https://vchitect.github.io/LongVie-project/
视频：https://www.youtube.com/watch?v=SOiTfdGmGEY\&t=1s
论文：https://arxiv.org/abs/2508.03694
Github：https://github.com/Vchitect/LongVie

，时长02:12

难点剖析

直接利用当前的可控视频生成模型生成分钟级长视频时，通常会出现以下问题：

时序不一致：前后画面细节与内容不连贯，出现闪烁等现象。
视觉退化：随时长增长，出现颜色漂移、清晰度下降等问题。

解决时序不一致：两项关键策略

LongVie 从「控制信号」与「初始噪声」两条路径入手：

控制信号全局归一化（Control Signals Global Normalization）

将控制信号在全片段范围内统一归一化，而非仅在单一片段内归一化，显著提升跨片段拼接时的一致性。

统一噪声初始化（Unified Noise Initialization）

各片段共享同一初始噪声，从源头对齐不同片段的生成分布，减少前后帧外观与细节漂移。

（下图展示了两项策略带来的前后一致性提升）

解决视觉退化：多模态精细控制

单一模态的控制难以在长时间下提供稳定而全面的约束，误差会随时间累积并引发画质下降。LongVie 融合密集控制信号（如深度图）与稀疏控制信号（如关键点），并引入退化感知训练策略，在更贴近长序列退化分布的条件下训练模型，使长视频生成在细节与稳定性上同时受益。

（下图给出了单一模态与多模态对比示例）

一图看懂 LongVie 框架

从左至右，LongVie 先将跨片段的稠密（深度）与稀疏（关键点）控制视频做全局归一化，并为所有片段采用统一的噪声

初始化。随后在具体某一片段生成时，将全局归一化后的控制信号、上一片段的末帧与文本提示送入模型，最终生成当前片段的视频，接着不断生成后面的片段，从而生成长视频。

控制信号怎么融合更稳更强？团队把标准 ControlNet（a）和两种变体（b、c）都做了对比测试，结果显示变体（c）效果更好、训练更稳定，最终被采纳。

LongVie 能力展示

LongVie 支持多种长视频生成下游任务，包括但不限于：

视频编辑：对长视频进行一致性的内容修改与编辑。
风格迁移：对整段长视频执行统一且时序连贯的风格迁移。
Mesh-to-Video：从三维体素出发生成逼真的长视频。

（如下图为不同任务的效果示例）

LongVGenBench：首个可控超长视频评测基准

当前缺乏面向可控长视频生成的标准化评测。为此，作者团队提出 LongVGenBench------ 首个专为超长视频生成设计的基准数据集，包含 100 个时长超过 1 分钟的高分辨率视频，旨在推动该方向的系统研究与公平评测。

基于 LongVGenBench 的定量指标与用户主观测评显示，LongVie 在多项指标上优于现有方法，并获得最高用户偏好度，达到 SOTA 水平。（详见下表与用户研究结果）

#Look-Back

当VLM学会了"回头看" ！Qwen-2.5-VL突破性发现，7B模型自主激活'视觉反思'，感知任务性能提升6.3%

无需额外图像输入，Qwen-2.5-VL 7B 凭「Look-Back」机制在推理后期自发"回头看"关键视觉信息，一举将数学与感知任务平均提升约7%和6.3%，刷新多模态推理范式。

本文主要解决了什么问题

多模态大语言模型（MLLMs）在推理后期过度依赖文本信息，忽视视觉输入整合的问题 。现有方法通常依赖显式注入视觉信息来引导模型重新关注图像，但这种做法增加了推理复杂度，并未充分利用模型本身的视觉融合推理能力。 2. 缺乏对MLLMs自发视觉注意力机制的研究 。现有方法普遍假设模型不具备自主重新聚焦视觉输入的能力，因此依赖外部干预。本文提出关键问题：是否可以在不显式注入视觉信息的前提下，引导模型自发地重新聚焦于视觉输入。 3. 模型在生成视觉反思行为时触发率低的问题。通过简单的Prompt引导虽然能观察到视觉注意力的增强，但触发率极低（平均6.248%），难以稳定实现视觉融合推理。

本文的核心创新是什么

提出Look-Back方法 ：一种隐式训练范式，使MLLMs能够在推理过程中自主决定何时、何地以及如何重新关注视觉输入，而无需显式注入图像信息或修改模型结构。 2. 发现MLLMs具备自发视觉注意力机制 ：通过注意力图分析，证实即使不显式提供图像输入，模型在生成特定Token（如<back>）时仍能自然地将注意力重新聚焦到图像的关键区域。 3. 两阶段训练框架：
- 冷启动监督微调（SFT）：使用高阶模型（如GPT-4o）生成带有<back> Token的反思性推理样本，构建初始训练数据集。
- 强化学习（RL）：基于GRPO算法，设计格式Reward函数，激励模型自发生成视觉反思行为。
无需额外输入或结构修改：Look-Back完全依赖模型内部机制，避免了显式重输入图像或引入额外Token的繁琐流程。

结果相较于以前的方法有哪些提升

在多个多模态基准测试中性能显著提升：
- 在数学任务中，Semantic-back平均提升7%（从48.5%到55.5%），Solution-back提升7.9%（从48.5%到56.4%）。
- 在感知任务中，Semantic-back提升6.3%（从61.3%到67.6%），Solution-back提升6%（从61.3%到67.3%）。
与开源推理MLLMs相比具有竞争力：
- 尽管参数量更小，Look-Back仍能缩小与闭源模型（如GPT-4o和o3）之间的差距，尤其在Solution-back设置下表现突出。
提升模型泛化能力：
- 尽管训练数据主要为数学任务，Look-Back在感知任务中也表现出良好的泛化能力，说明其机制具有跨任务适应性。
可视化注意力机制验证：
- 通过注意力图分析，验证了模型在生成<back> Token时确实聚焦于图像中的关键区域，证明了视觉反思行为的真实性与有效性。

局限性总结

冷启动数据构建依赖高阶模型：
- 当前方法依赖GPT-4o等闭源模型生成带有<back> Token的样本，限制了方法的可扩展性和开源友好性。
触发率低的问题仍未完全解决：
- 即使通过强化学习提升，<back> Token的触发率仍然有限，表明模型在自主生成视觉反思行为方面仍存在挑战。
训练数据的模态和任务偏差：
- 实验中主要使用数学推理数据进行训练，导致在感知任务上的提升略逊于数学任务，说明训练数据的多样性对模型泛化能力有重要影响。
存在潜在的Reward攻击风险：
- 模型可能通过生成空<back> Token序列来"走捷径"获取格式Reward，说明强化学习训练中仍需更精细的控制机制。
方法对模型架构和预训练基础敏感：
- 实验表明，Qwen-2.5-VL具备一定的视觉反思能力，而更早版本（如Qwen-2-VL）则表现不佳，说明方法对模型基础能力有较高依赖。

深入阅读版本导读

多模态大语言模型（MLLMs）在多模态推理方面取得了显著进展。然而，它们在推理后期往往过度依赖文本信息，忽视了视觉输入的关键整合。当前方法通常通过显式注入视觉信息来指导推理过程来解决这个问题。在本工作中，通过分析MLLMs的注意力模式，作者做出了一个有趣的观察：在适当引导下，即使没有显式注入视觉信息，MLLMs也能在推理后期自发地将注意力重新集中在视觉输入上。这种注意力的自发转变表明MLLMs本质上具备执行视觉融合推理的能力。基于这一见解，作者提出了Look-Back，这是一种隐式方法，旨在引导MLLMs在推理过程中以ego驱动的方式"回顾"视觉信息。Look-Back使模型能够自主决定何时、何地以及如何重新关注视觉输入，无需显式的模型结构约束或额外的输入。作者通过在多个多模态基准上的广泛实证评估证明，Look-Back显著增强了模型的推理和感知能力。

1 引言

随着多模态推理（Amizadeh等人2020；Garcez等人2019；Gupta和Kembhavi2023；Thawakar等人2025；Guo等人2024；Bai等人2023；Hurst等人2024；Xu等人2024）和带验证性 Reward 的强化学习（RLVR）（Shao等人2024b；Guo等人2025；Meng等人2025；Peng等人2025）的发展，多模态大语言模型（MLLMs）（Liu等人2023；团队2025；Wang等人2024b；Liao等人2025；Lin等人2025；Wan等人2025b）在联合处理图像和文本输入以执行复杂任务方面取得了显著进展（Google2025；OpenAI2025；Jaech等人2024；Pang等人2024）。然而，最近的研究表明，大多数方法在推理的后期阶段仍然主要依赖文本，忽视了视觉模态（Zheng等人2025b；Fan等人2025；Su等人2025；Zhang等人2025d；Yang等人2025b；Hu等人2024；Liu等人2025e；Zou等人2024）。具体而言，在推理过程中，模型对视觉信息的关注度逐渐降低，在后期阶段几乎降至零（Sun等人2025；Tu等人2025；Chen等人2024b），以至于后期阶段的视觉信息对推理结果的影响微乎其微（Sun等人2025）。

然而，人类在多模态推理中自然地将视觉和认知处理相结合（Najemnik和Geisler 2005；Tversky、Morrison和Betrancourt 2002；Tversky 2005；Kosslyn 1996；Goel 1995；Larkin和Simon 1987；Zhang和Norman 1994），而OpenAI的o3（OpenAI 2025）则代表了该领域从单纯基于文本的推理向与视觉信息深度整合的逐步转变。尽管取得了这些进展，但大多数现有方法仍然明确地注入视觉信息（Zheng等人 2025b；Su等人 2025；Zhang等人 2025d；Wang等人 2025d；Chern等人 2025），例如重新输入图像或将图像 Token 重新注入模型（Sarch等人 2025；Wu等人 2025a；Xu等人 2025；Zhang等人 2025b；Gupta和Kembhavi 2023）。这些方法本质上引导模型重新关注视觉线索。基于此，作者提出了一个关键的研究问题：> MLLMs能否通过ego指导的方式隐含地学习何时以及如何重新聚焦于视觉输入，而不是显式地重新注入视觉信息？

基于上述问题，作者进行了一项初步实验以验证模型能够自主重新聚焦于图像。具体而言，作者将一个简单的 Prompt （如图2所示）引入到原始的CoT框架中。令人惊讶的是，在推理的后期阶段，模型自发地增强了其对图像的关注，重新聚焦于视觉输入，而无需任何额外的显式输入或模型结构约束。

为了更好地利用模型对图像的自主注意力现象，作者提出了Look-Back方法，该方法旨在以自然和ego驱动的方式引导MLLMs在推理过程中"回顾"视觉信息，从而增强其对视觉输入的注意力。具体而言，作者开发了一个两阶段训练框架。在第一阶段，作者利用先进的MLLMs生成带有 Token 的反思数据，随后进行冷启动微调，为后续的强化学习训练奠定基础。在第二阶段，作者仅对GRPO算法引入基于 Token 的格式 Reward ，旨在通过强化学习进一步强化模型对视觉信息的关注能力。

如图1所示，Look-Back能够有效鼓励MLLMs自发生成与图像相关的反思性推理内容，而无需显式注入视觉信息，并在推理后期自主增强对图像的关注（即重新聚焦于图像）。通过分析注意力图，作者确认模型确实在 Token 中关注了正确的视觉位置。Look-Back使模型能够自主决定何时（触发 Token 的时间由模型决定）、何地（选择图像中特定的区域进行关注）以及如何（自主决定如何增强注意力）对视觉输入进行反思，所有这一切均无需显式输入或对模型的结构施加约束。

本文旨在提出一种由模型自发生成的隐式视觉融合推理范式，而非仅仅评估哪种范式最为有效。作者使用Qwen-2.5-VL-7B模型（团队2025）在多个广泛使用的多模态推理基准上进行了全面的实验验证。结果表明，通过引导模型自发重新聚焦于图像Look-Back，可以持续提升推理和感知任务中的性能。作者的主要贡献总结如下：

通过分析注意力变化趋势，作者发现，在不明确注入视觉信息的情况下，现有的MLLM能够自主关注视觉输入。
作者提出了回溯隐式训练范式，该范式在冷启动微调后，通过简单地修改格式 Reward 函数即可触发模型的视觉反射行为。
在多个多模态基准测试上的广泛评估表明，Look-Back能够持续提升推理和感知任务的表现。

2 MLLMs是否知道何时以及如何反思视觉输入？

近期研究（Hu等人2024；Zhang等人2025d；Su等人2025；Fan等人2025；Liu等人2025e；Zheng等人2025b）表明，多模态大语言模型（MLLMs）在推理后期阶段往往过度依赖文本信息，忽视了视觉输入的关键整合。随着推理过程的推进，对视觉信息的关注度逐渐降低，这显著影响了视觉语言模型的可靠性和性能。当前方法通常通过显式注入视觉信息来指导推理过程，例如将图像重新输入模型，以此解决这一问题。

然而，这引发了一个基本问题：能否在不依赖外部干预的情况下，使MLLMs自发地重新激活对视觉输入的关注？为探究此问题，作者进行了一项初步实验，采用了一种简单的 Prompt 修改方法，鼓励模型生成cback Token ，并随后基于视觉信息重新审视其响应。

令人惊讶的是，如图2所示，该模型展现出卓越的自发性视觉注意力恢复能力。在生成 Token 时，模型自然地将大量注意力重新导向视觉输入，中央图表中"Image Token"注意力比例的急剧上升便是明证。关键在于，这并非对图像的泛泛浏览；模型的推理精准地基于视觉证据。底部注意力图提供了有力证据：在生成序列时，模型会专门聚焦于相应目标------例如，在生成"yellow" Token 时关注黄色公交车，在生成"car" Token 时关注金色汽车。这种目标性重新聚焦是内在发生的，无需显式注入视觉信息或对模型架构进行结构修改。

表1中的结果在多个基准测试上展示了定量改进，这初步验证了MLLMs具备ego导向视觉反思的潜在能力。为进一步验证反向机制带来的性能提升，作者对"Back prompt"成功触发视觉反思的问题子集进行了专门分析。如表2所示，比较该特定问题子集上的性能表明，参与视觉反思在所有基准测试中带来了更大的改进。然而，表1中的"触发率"揭示了关键局限性：即使经过精心调整的 Prompt ，仅修改 Prompt 不足以始终触发这种反思行为，导致平均触发率仅为。因此，作者提出使用强化学习来进一步激励该机制。

3 回溯方法

所提出的回溯方法旨在引导多模态大语言模型（MLLMs）在推理过程中自发地重新聚焦视觉输入，从而增强其视觉融合推理能力。具体而言，回溯方法包含两个主要阶段：监督微调（SFT）和强化学习（RL）。

冷启动初始化

为解决与 Token 自发触发相关的稳定性问题以及模型通过 Reward 劫持进行的 Reward 操纵（详见讨论部分），作者首先构建了一个用于冷启动初始化的监督微调数据集。具体而言，根据 Token 触发的时机，作者将回退 Prompt 分为两类：

语义级回溯（Semantic-back）：在推理过程中被触发，允许模型重新审视对中间推理步骤至关重要的视觉细节，并随后继续其正在进行中的推理。: 解级回溯（Solution-back）：在模型生成初步解决方案后被触发，促使模型通过重新考虑视觉输入进行全面反思。

作者设计了两种明确的输出格式，如下所示（详见附录B）。

数据构建。作者设计了一个特定的数据构建过程，如图3（A）所示，该过程由以下三个步骤组成：

模型推理：首先，作者使用Qwen-2.5-VL-7B对数据集进行思维链（Chain-of-Thought, CoT）推理。对于每个问题，作者进行次独立推理（在作者的实验中，或）。
CoT选择：基于推理结果，作者计算准确率 Reward ，并选择 Reward 方差较高且难度较大的问题。
High-Level模型插入：问题、图像、模型生成的思维链推理过程以及正确答案被输入到GPT-o4-mini中，该模型根据预定义规则自动插入回溯 Token 。对于答案正确的样本，会插入与图像验证相关的回溯 Token 。对于答案错误的样本，会插入基于图像信息修正答案的回溯 Token ，并相应调整最终答案。

通过上述步骤，每个样本都获得了一个带有明确 Token 的稳定冷启动响应。这产生了一个带有显式回溯 Token 的稳定冷启动数据集。

监督微调（SFT）。使用由 Token 生成的冷启动数据集，作者应用SFT来指导模型一致地触发回溯行为。每个样本表示为，其中表示输入图像，代表问题，是回溯 Token序列，是答案序列。训练目标是如下：

其中表示数据集，将回溯 Token 和答案序列连接起来。

回顾强化学习

为进一步提升模型自主重访视觉输入的能力，作者采用群体相对策略优化（GRPO）算法进行强化学习。相较于传统的策略优化方法，GRPO在样本群体内执行策略梯度优化，使模型能够高效生成更多样化且丰富的推理响应。优化目标如下：

其中和分别是裁剪超参数和KL散度惩罚系数。为了更稳定地引导模型触发视觉审查行为，作者仅修改了格式 Reward 函数。具体而言，格式 Reward 函数定义如下：

完整的 Reward 函数是格式 Reward 和准确率 Reward 的组合，定义为：

其中表示响应的准确度 Reward，是一个超参数，用于调整格式 Reward 与准确度 Reward 之间的平衡。本质上，作者设计的 Reward 函数为模型提供了内在动机，使其能够自主地重新审视视觉信息。这使模型能够在推理过程中主动反思视觉输入，类似于人类自然地重新审视视觉信息，而无需显式地重新注入图像。

4 回顾实验分析实验设置

Baseline 与基准测试。为了评估Look-Back的有效性，作者在一组包含八个基准测试的实验中进行了测试，这些基准测试分为两类：数学任务和感知任务。数学基准测试包括

MathVerse（张等人 2024）、MathVision（王等人 2024a）、MathVista（陆等人 2023）、WeMath（乔等人 2024）和GeoMath（谭等人 2025），而感知基准包括HallusionBench（关等人 2024）、TallyQA（阿查里亚、卡夫勒和卡南 2019）和MME（傅等人 2024）。作者分别计算了每个类别的平均性能。此外，作者将LookBack与三种类型的 Baseline 进行了比较：（1）闭源多模态大语言模型（MLLMs），如GPT-4o（哈斯特等人 2024）和o3（OpenAI 2025）；（2）开源通用MLLMs，如Qwen2.5-VL32B（团队 2025）和InternVL3-38B（朱等人 2025）；（3）开源推理MLLMs，如MM-Eureka8B（孟等人 2025）、R1-VL-7B（张等人 2025a）、VL-Rethinker-7B（王等人 2025a）、OpenVLThinker7B（邓等人 2025）、ThinkLite-VL-7B（王等人 2025c）、VLAA-Thinker-7B（陈等人 2025a）、VisionR1-7B（黄等人 2025）、MM-Eureka-Qwen-7B（孟等人 2025）、R1-Onevision-7B（杨等人 2025b）和NoisyRollout-7B（刘等人 2025b）。

训练数据集。在强化学习（RL）阶段，作者从Geo170K（Gao等人，2023）、Math360K（Shi等人，2024）、Geometry3K（Lu等人，2021）和K12（Meng等人，2025）数据集中选取了15k个数学问题用于训练。在监督微调（SFT）阶段，作者应用了第3.1节中概述的数据构建过程，对RL阶段的15k个问题进行处理，分别生成了4k和10k个冷启动数据集，用于Semantic-back和Solution-back。

实现细节。训练在八块NVIDIA A800 GPU上进行，作者在Qwen2.5-VL7B-Instruct模型上执行了冷启动SFT和随后的RL训练。作者使用LLaMA-Factory（Zheng等人，2024）框架进行SFT。为了防止过拟合，作者只训练了一个epoch。对于RL，作者采用了EasyR1（Sheng等人，2024；Zheng等人，2025a）框架，其中默认 Reward 权重，记作，设置为 0.1 。在 15 k数据集上进行了两个epoch的训练，使用批处理大小为128（每个样本12次rollout）和采样温度为1.0。其他设置请参见附录A。

主要结果

数学推理。如表3所示，作者的LookBack方法基于Qwen2.5-VL-7B构建，在所有基准测试中均优于基础模型。具体而言，在五个数学基准测试中，Semantic-back平均提升了7%（从48.5%提升至55.5%），而Solution-back则提升了7.9%（从48.5%提升至56.4%）。此外，作者还将Look-Back与十种不同的开源推理MLLM进行了比较。尽管各模型的训练数据和时长存在差异，使得直接比较存在困难，但Look-Back仍展现出具有竞争力的性能。尽管参数数量显著较少，但Solution-back得益于"回溯"机制，缩小了与闭源模型的差距。

感知推理。尽管作者的训练主要利用了数学推理数据，但值得注意的是，在感知基准测试中，Semantic-back实现了平均提升6.3%（从61.3%提升至67.6%），而Solution-back相较于 Baseline 模型提升了6%（从61.3%提升至67.3%）。此外，Look-Back在与其他开源推理MLLMs的竞争中表现出强大的竞争力。这些结果突显了"回溯"机制在增强多模态推理系统泛化能力方面的重要性。

消融研究

回溯效果。作者进一步研究了Look-Back框架中每个阶段的贡献。如表4所示，移除Look-Back训练中的RL阶段或SFT阶段会导致模型性能显著下降。此外，与不包含任何回溯机制的标准GRPO相比，语义级回溯机制和解决方案级回溯机制均通过应用回溯实现了性能提升。有关训练过程的进一步分析请参见附录D。

反射率消融实验。由于模型的回溯过程包含验证和基于反射的错误纠正，在SFT冷启动阶段提供单一回溯数据集是不合理的，因为这极易导致 Reward 攻击。因此，作者以语义级回溯机制为例，对SFT数据集的反射率进行了消融研究。表5所示的结果表明，不同类型任务的最佳反射率位于30%至50%之间。过低的反射率和过高的反射率都会导致模型性能下降。因此，在本研究中作者采用了50%的反射率。

定性推理分析

在观察到跨多个基准测试的定量性能提升之外，作者进行了定性分析以验证Look-Back改变了MLLM注意力模式。具体而言，如图4所示，Look-Back在数学和感知任务中始终如一地提升了注意力。与标准GRPO相比，LookBack使模型在推理后期阶段能够重新聚焦于视觉输入以进行验证。

进一步的定性分析（附录C）揭示了来自五个不同基准的具体案例，突显了Semantic-back和Solution-back如何有效利用Look-Back机制，通过明确地将推理与视觉证据相结合来纠正初始错误。这表明Look-Back能够有效引导MLLMs自主确定何时、何地以及如何重新审视视觉信息，从而超越了对文本推理的单一依赖。这一发现进一步支持了作者的核心观点：在适当的指导下，MLLMs能够在没有明确视觉 Prompt 的情况下进行视觉融合推理。

对抗 Reward 攻击：模型通过生成空的 back Token 序列，学会了走捷径，从而在不进行真实推理的情况下获得格式 Reward 。这与先前的研究发现（Yue et al. 2025）一致，即强化学习可能无法在基础模型之上提升推理能力。作者假设这个问题之所以出现，是因为Qwen2-VL本身缺乏足够的视觉反思能力，而Qwen-2.5-VL可能由于预训练而具备这种能力。

5 进一步讨论

失败尝试

在作者尝试利用模型自发重新聚焦图像的能力时，作者遇到了一些失败和挫折。在本节中，作者分析了这些失败的经验，但强调这些失败并不意味着该方法本身存在根本性缺陷。

在弱模型中的 Reward 攻击。作者最初对Qwen-2-VL模型应用了回溯训练，但遇到了enSFT冷启动数据需求问题。最初，作者使用GPT-4o生成CoT数据，并随后插入 Token 。然而，作者观察到在模型冷启动后性能有所下降。受Wan等人（2025a）的启发，作者转而使用模型生成的数据，并优化插入方式，从而提升了性能。作者假设，在同构模型输出上进行微调可以减少分布偏差，更好地与冷启动目标------即保持输出格式的一致性------相契合。

冷启动影响

扩展冷启动数据。为评估冷启动数据规模对性能的影响，作者使用Solution-back方法对2.5k、5k、7.5k和10k个样本进行了实验，所有样本均为数学性质。如图5所示，随着冷启动数据的增加，数学任务的平均得分有所提高，表明在冷启动阶段进行扩展有助于持续性能提升。然而，感知任务的性能略有下降，尽管整体性能保持相对稳定。作者假设，使用纯数学数据进行冷启动可能会限制感知任务的进一步泛化。引入更多样化的SFT和RL数据可以进一步提升整体鲁棒性。

语义回溯与解法回溯的性能差异。如表4所示，触发两种类型的方法均能提升多个基准测试的性能。语义回溯在感知任务上表现更优，而解法回溯则在数学任务上表现更佳。作者推测早期回溯有助于及时确认视觉线索，从而受益于感知任务。相比之下，将回溯推迟至CoT推理之后，能够实现更全面的验证，同时最小化对推理链的干扰，从而更适合数学任务。

6 相关工作

近年来，多模态复杂推理取得了显著进展，经历了四个主要阶段：早期显式模块探索、监督微调与测试时扩展、强化学习驱动的进步，以及多模态对齐和原生视觉推理能力的持续演进。

多模态推理的早期发展（Shao等人2024a；Zhang等人2023；Hu等人2024）。在多模态语言模型（MLLM）发展的早期阶段，多模态推理依赖于显式 Prompt 和多模块协作。例如，Visual-CoT（Shao等人2024a）采用推理链和视觉采样进行动态视觉推理。Visual-SketchPad（Hu等人2024）引入了包含视觉草图的三个阶段工作流程，以增强可解释性。与此同时，Multimodal-CoT（Zhang等人2023）提出了一种两阶段框架，将推理链生成与答案推理解耦。

监督微调与测试时缩放 (Xu等人 2024; Wang等人 2025e; Du等人 2025; Ma等人 2024; Yang等人 2025a; Kumar等人 2025; Yang等人 2024)。随着OpenAI O1等模型的出现 (Jaech等人 2024)，基于大规模合成思维链数据的监督微调 (SFT) 成为主流。这一范式转变的核心特征是从基于模块的方法转向数据驱动方法。例如，Virgo (Du等人 2025) 通过利用不同长度的思维链数据动态调整推理深度。LLaVA-CoT (Xu等人 2024) 采用结构化推理模板，约束模型遵循多步推理过程。TACO (Ma等人 2024) 通过SFT数据应用动态规划策略进行工具调用学习。测试时缩放 (TTS) (Ma等人 2024; Kumar等人 2025; Muennighoff等人 2025; Zhang等人 2023) 在不更新模型参数的情况下进一步增强推理，为强化学习方法奠定基础。

强化学习突破（Lightman等人2023；Wang等人2025a；Meng等人2025；Zhang等人2025a；Park等人2025；Yu等人2025a；Li等人2025c；Liu等人2025d；Wang等人2025g；Yu等人2025b；Feng等人2025a；Liu等人2025c；Zhou等人2025；Wang等人2025f；Liu等人2025a；Xia等人2025；Yao等人2025；Ma等人2025）。DeepSeek-R1（Guo等人2025）的成功标志着复杂推理进入强化学习微调（RFT）的新时代。在多模态领域，DIP-R1（Park等人2025）探索了细粒度图像处理，而Perception-R1（Yu等人2025a）直接编码图像块，有效将测试时增强方法与RFT训练相结合。MM-Eureka（Meng等人2025）通过基于规则的 Reward 在视觉推理方面取得了显著进展。STAR-R1（Li等人2025c）、VL-Rethinker（Wang等人2025a）和InfiMMR（Liu等人2025d）进一步证明了强化学习在空间、医学（Chen等人2024a）和xx（Zhang等人2025c；Zhao等人2025a；Shen等人2025）推理方面的有效性。

视觉思维演化 (Wu and Xie 2024; Li et al. 2025a,b; Feng et al. 2025b; Zheng et al. 2025b; Su et al. 2025; Zhang et al. 2025d; Wang et al. 2025d; Chern et al. 2025; Wu et al. 2025b; Sarch et al. 2025; Wu et al. 2025a; Xu et al. 2025; Chen et al. 2025b; Zhang et al. 2025b; Gupta and Kembhavi 2023; Chung et al. 2025; Zhao et al. 2025b; Wang et al. 2025d; Fu et al. 2025; Shen et al. 2024)。近期研究趋势表明，多模态复杂推理不仅需要"语言思维"，还需要"图像思维" (Zheng et al. 2025b; Sarch et al. 2025; Su et al. 2025; Zhang et al. 2025d; Wang et al. 2025d; Chern et al. 2025; Wu et al. 2025a; Zeng et al. 2025; Wang et al. 2025b)。在细粒度感知领域，Vstar (Wu and Xie 2024) 引入了 SEAL 框架，通过分层视觉搜索机制动态定位关键细节。DyFo (Li et al. 2025b) 模拟人类视觉搜索的动态聚焦机制，而 DeepEyes (Zheng et al. 2025b) 通过端到端强化学习实现视觉与文本推理的动态交互。在复杂空间推理方面，MVoT (Li et al. 2025a) 在推理过程中交替生成文本和图像，以视觉思维过程补充语言推理。Reflective Planning (Feng et al. 2025b) 利用扩散模型预测未来视觉状态，构建"预测-反思-校正"反馈循环。

与先前显式注入视觉信息的方法（Zheng等人2025b；Su等人2025；Zhang等人2025d；Wang等人2025d；Chern等人2025；Sarch等人2025；Wu等人2025a；Xu等人2025；Zhang等人2025b；Gupta和Kembhavi 2023）不同，Look-Back方法使模型能够自主学习何时以及如何重新聚焦于视觉输入，从而在不依赖显式视觉指导的情况下提升推理能力。

7 结论

在本工作中，作者观察到多模态大语言模型（MLLMs）在推理过程中能够自主地将注意力重新集中于视觉输入，而无需显式的视觉信息注入。基于这一见解，作者提出了Look-Back方法，通过结合监督微调和强化学习的两阶段训练过程，使MLLMs能够ego引导视觉反思。作者的实验表明，Look-Back显著增强了多模态推理能力，并在多个基准测试中取得了具有竞争力的结果。

参考