每周AI论文速递（251103-251107）

Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm

"文本思维"与"图像思维"范式显著提升了大语言模型 (LLMs) 和视觉语言模型 (VLMs) 的推理能力。然而，这些范式存在固有局限：(1) 图像仅能捕捉瞬时状态，无法表征动态过程或连续变化；(2) 文本与视觉作为独立模态相互分离，阻碍了统一的多模态理解与生成。为突破这些限制，我们提出"视频思维"新范式，通过 Sora-2 等视频生成模型，在统一时序框架中实现视觉与文本推理的融合。为支撑本研究，我们构建了视频思维基准 (VideoThinkBench)，涵盖两大任务类型：(1) 视觉中心任务 (如视觉推理谜题)；(2) 文本中心任务 (如 GSM8K、MMMU 的子集)。评估结果表明，Sora-2 具备卓越的推理能力：在视觉中心任务中，其性能与最先进 (SOTA) VLMs 相当，且在视觉推理游戏等任务中实现超越；在文本中心任务中，Sora-2 在 MATH 数据集上达到 92% 准确率，在 MMMU 上达到 75.53% 准确率。我们进一步系统分析了其能力来源，发现自洽性与上下文学习能有效提升模型性能。综上所述，本研究证实视频生成模型有望成为统一的多模态理解与生成模型，从而确立"视频思维"作为统一的多模态推理范式。

VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation

VCode：以 SVG 作为符号化视觉表示的多模态编码基准

在 AI 智能体时代，代码已成为推理与行动的一种精确且可执行的媒介。然而，相关进展主要集中于以语言为中心的任务，如程序合成与调试，导致视觉导向的编码研究相对不足。受人类基于草图进行推理的机制启发，我们提出将 SVG 代码作为一种紧凑、可解释且可执行的视觉表示形式。本文引入 VCode 基准，将多模态理解任务重新定义为代码生成问题：给定输入图像，模型必须生成能保留符号语义以支持下游推理的 SVG 代码。VCode 涵盖三大领域：通用常识（MM-Vet）、专业学科（MMMU）以及视觉核心感知（CV-Bench）。为评估符号保真度，我们提出 CodeVQA------一种创新评估协议，通过策略模型对渲染后的 SVG 进行问答，正确答案即表明符号信息被真实保留。实证研究表明，当前前沿视觉语言模型（VLM）在生成精确 SVG 方面仍面临困难，这暴露出语言导向与视觉导向编码能力之间存在显著差距。为弥合这一差距，我们开发了 VCoder 智能体框架，从两个维度增强 VLM 能力：（i）修订式思考，通过迭代分析差异持续优化 SVG 代码；（ii）视觉工具赋能，利用检测器与解析器提供模型固有能力之外的结构化线索（如物体、形状与文本）。在多项基准测试中，尽管具备强推理能力的前沿 VLM 整体表现良好，但在专业知识与三维推理方面仍存在局限。VCoder 相较性能最优的 Claude-4-Opus 实现了 12.3 个百分点的整体提升。人类研究表明，人类与 VLM 在渲染 SVG 任务上表现均有所下降，但二者表现的一致性印证了符号化视觉表示的巨大潜力。本基准与代码已开源于 github.com/CSU-JPG/VCo...

Diffusion Language Models are Super Data Learners

扩散语言模型是卓越的数据学习器

在严格控制的预训练条件下，我们观察到性能交叉现象：当唯一数据有限时，扩散语言模型 (DLMs) 通过增加训练周期数持续优于自回归 (AR) 模型。该交叉点随数据量增加或质量提升而延迟出现，随模型规模扩大而提前出现，且在密集与稀疏架构中均稳定存在。我们将性能提升归因于三个叠加因素：(1) 任意顺序建模能力，(2) 迭代双向去噪带来的超密集计算优势，以及 (3) 内置的蒙特卡洛数据增强；输入噪声或参数噪声虽能在数据受限时改善 AR 模型性能，但无法消除性能差距。在大规模训练中，使用约 1.5T token 计算预算、基于 100 亿唯一 Python token 训练的 17 亿参数 DLM，其性能超越了在严格匹配条件下训练的 AR 编码器。此外，10 亿参数 DLM 仅通过重复标准预训练数据（仅使用 10 亿 token），即在 HellaSwag 上获得 >56% 准确率，在 MMLU 上获得 >33% 准确率，且不依赖任何特殊技巧。我们还证实，在此数据受限的训练模式下，验证集交叉熵上升并不代表下游任务性能退化。

不要限制你的 VLA：对齐视觉表示以实现 OOD 泛化

视觉-语言-动作 (Vision-Language-Action, VLA) 模型的成功日益显著，这源于预训练视觉-语言模型 (Vision-Language Models, VLMs) 能够为智能体提供可迁移的世界知识和视觉-语言 (Vision-Language, VL) 基础，从而为具有更广泛泛化能力的动作模型奠定基础。然而，当这些 VLMs 被微调以适应动作模态时，其原始的 VL 表示和知识保留程度尚不明确。在本工作中，我们系统研究了 VLA 微调过程中的表示保留问题，发现简单的动作微调会导致视觉表示退化。为表征和量化这些影响，我们分析了 VLA 的隐藏表示和注意力图；进一步，我们设计了一组针对性任务和方法，将 VLA 模型与原始 VLM 进行对比，以分离动作微调引起的 VL 能力变化。我们还评估了多种对齐视觉表示的策略，并提出一种简单有效的方法，该方法可缓解退化并提升对分布外 (Out-of-Distribution, OOD) 场景的泛化性能。总体而言，我们的分析明确了动作微调与 VL 表示退化之间的权衡，并指出了恢复继承 VL 能力的实用途径。代码公开可用：blind-vla-paper.github.io

Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation

每次激活皆增强：将通用推理模型扩展至万亿级开放语言基础模型

我们推出 Ling 2.0 系列，这是一套以推理为导向的语言基础模型，其核心设计原则是每次激活操作均能提升推理能力。该系列在统一的混合专家 (MoE) 架构下，实现了从百亿级到万亿级参数的可扩展性，并基于经验缩放定律，着重优化了高稀疏性、跨尺度一致性与计算效率。系列包含三款指令调优模型（非自主推理型）------Ling-mini-2.0、Ling-flash-2.0 和 Ling-1T，总参数量覆盖 160 亿至 1 万亿，与稠密模型相比，激活计算效率提升最高达 7 倍。Ling 2.0 融合了模型架构、预训练、后训练及基础设施的协同创新：采用具备 MTP（多维张量并行）的高稀疏 MoE 以实现高效推理、注入推理导向数据与训练中程思维链 (CoT) 激活、应用基于强化学习的微调（DFT、Evo-CoT），并实现全精度 FP8 训练及细粒度异构流水线。在万亿参数规模上，Ling-1T 确立了推理精度与计算效率的新帕累托前沿，证明当稀疏激活与推理目标精准对齐时，能够实现可扩展的高效智能。总体而言，Ling 2.0 为未来推理与思维模型（包括基于同一基座的 Ring 系列）的发展提供了连贯、开放且高效的基础框架。

V-Thinker: Interactive Thinking with Images

V-Thinker：基于图像的交互式思考

如何使大型多模态模型 (LMMs) 深度融合图像交互与长程推理能力，始终是该领域长期存在的挑战。近期以视觉为中心的推理研究探索出名为"基于图像的思考"的新范式，推动模型从图像辅助推理转向图像交互式思考。尽管这一突破使模型能专注于细粒度图像区域，但有限的视觉工具空间与任务定制化工作流设计仍制约着进一步发展。为突破此局限，我们提出 V-Thinker------一种通用多模态推理助手，通过端到端强化学习实现以视觉为中心的交互式思考。该系统包含两大核心组件：(1) 数据进化飞轮，可在多样性、质量与难度三个维度上自动合成、演进并验证交互式推理数据集；(2) 视觉渐进式训练课程，先通过点级监督实现感知对齐，再通过两阶段强化学习框架融合交互式推理。此外，我们推出 VTBench 专家验证基准，专门针对视觉交互式推理任务。大量实验表明，V-Thinker 在通用推理与交互式推理场景中均稳定超越基于 LMM 的强基线模型，为图像交互式推理应用的发展提供了重要洞见。

ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

ThinkMorph：多模态交织思维链推理中的涌现性质

多模态推理需要语言与视觉的迭代协调，但何种交织思维链具有意义仍不明确。我们提出，文本与图像思维应作为互补（而非同构）的模态，共同推进推理。基于此原则，我们开发了ThinkMorph------一个统一模型，其在约2.4万条高质量交织推理序列上微调，覆盖多种视觉参与度的任务。ThinkMorph能够生成渐进的文本-图像推理步骤，在保持语言逻辑连贯的同时，具体操控视觉内容。该模型在以视觉为核心的基准测试中显著提升（平均优于基础模型34.7%），并能泛化至域外任务，性能匹配或超越更大规模的专有多模态大语言模型。除性能优势外，ThinkMorph展现出涌现的多模态智能特性，包括未见的视觉处理能力、推理模式的自适应切换，以及通过多样化多模态思维实现更优的测试阶段扩展。这些发现为探索统一多模态推理模型的涌现能力指明了潜力方向。

OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows

OS-Sentinel：基于现实工作流混合验证的安全增强型移动 GUI 智能体

基于视觉语言模型 (VLM) 的计算机操作智能体在移动平台等数字环境中已展现出类人的操作能力。尽管这些智能体在推动数字自动化方面潜力巨大，但其可能引发的不安全操作（如系统破坏和隐私泄露）正引起高度关注。在移动环境广阔而复杂的操作空间中检测这些安全威胁是一项重大挑战，目前该领域的研究仍严重不足。为奠定移动智能体安全研究的基础，我们推出了 MobileRisk-Live------一个动态沙盒环境，并配套构建了包含细粒度标注现实轨迹的安全检测基准。在此基础上，我们提出 OS-Sentinel：一种新型混合安全检测框架，通过协同整合形式验证器（用于检测显式系统级违规）和基于 VLM 的上下文判断器（用于评估上下文风险与智能体行为），实现综合安全保障。实验表明，OS-Sentinel 在多项指标上相较现有方法提升 10%-30%。深入分析提供了关键见解，有力推动更安全、更可靠的自主移动智能体的发展。

INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats

INT vs. FP：细粒度低比特位量化格式的综合研究

现代 AI 硬件（如 Nvidia 的 Blackwell 架构）正日益广泛采用低精度浮点 (FP) 格式，以处理大语言模型 (LLMs) 中普遍存在的激活值异常值 (outliers)。尽管存在这一行业趋势，但针对不同粒度的 FP 与整数 (INT) 量化方法的统一比较仍属空白，导致算法与硬件协同设计缺乏明确指导。本文通过系统研究 FP 和 INT 格式之间的权衡，填补了这一空白。我们揭示了一个关键的性能转折点：虽然 FP 在粗粒度量化中表现优异，但在细粒度（块级）量化下的比较则更为复杂。全面的比较结果表明，对于流行的 8 位细粒度格式（如块大小为 32 的 MX），MXINT8 在算法精度和硬件效率上均优于其 FP 对应方案。然而，对于 4 位格式，FP（例如 MXFP4 和 NVFP4）通常具有精度优势，但我们证明，在应用 Hadamard 旋转等异常值缓解技术时，NVINT4 可以超越 NVFP4。我们还提出了一种对称裁剪方法，解决了细粒度低比特位 INT 训练中的梯度偏差 (gradient bias) 问题，使 MXINT8 训练实现近乎无损的性能。这些发现对当前硬件发展路径提出了挑战，表明通用型 FP 方法并非最优，并主张细粒度 INT 格式（尤其是 MXINT8）能为未来 AI 加速器在精度、功率和效率之间提供更佳平衡。

Continuous Autoregressive Language Models

连续自回归语言模型

大语言模型 (LLMs) 的效率从根本上受限于其顺序、逐个 token 的生成过程。我们认为，要克服这一瓶颈，需要引入一个新的 LLM 扩展设计维度：提升每个生成步骤的语义带宽。为此，我们提出了连续自回归语言模型 (CALM)，实现了从离散的下一个 token 预测到连续的下一个向量预测的范式转变。CALM 采用高保真自编码器将 K 个 token 的块压缩为单个连续向量，并能以超过 99.9% 的准确率重建原始 token。这使得我们可以将语言建模为连续向量序列而非离散 token 序列，从而将生成步骤数量减少到原来的 1/K。这一范式转变需要新的建模工具；因此，我们开发了一套全面的无似然框架，支持在连续域中进行稳健的训练、评估和可控采样。实验表明，CALM 显著优化了性能与计算之间的权衡，在计算成本大幅降低的情况下，达到了性能强大的离散基线模型的水平。更重要的是，这些发现将下一个向量预测确立为一个强大且可扩展的路径，用于构建超高效语言模型。代码：github.com/shaochenze/...

Scaling Agent Learning via Experience Synthesis

通过经验合成实现智能体学习的规模化

尽管强化学习 (RL) 能够通过交互式自我改进增强大语言模型 (LLM) 智能体的能力，但其实际应用仍面临挑战：高成本的 rollout、有限的任务多样性、不可靠的奖励信号以及复杂的基础设施，这些问题都阻碍了可扩展经验数据的收集。为解决这些挑战，我们提出了 DreamGym------首个以可扩展性为核心设计的统一框架，通过合成多样化经验来实现自主智能体的高效在线 RL 训练。DreamGym 不依赖高成本的实境 rollout，而是将环境动态蒸馏为基于推理的经验模型，通过逐步推理生成一致的状态转移和反馈信号，从而为 RL 提供可扩展的智能体 rollout 收集。为提升状态转移的稳定性和质量，DreamGym 采用经验回放缓冲区，该缓冲区使用离线采集的真实世界数据初始化，并通过实时交互数据持续扩充，以主动支撑智能体训练。为优化知识获取，DreamGym 自适应生成针对当前智能体策略的新任务，实现更高效的在线课程学习。在不同环境与智能体骨干网络上的实验表明，DreamGym 在完全合成设置和仿真到实境迁移场景中均能显著提升 RL 训练效果。在 WebArena 等非 RL 就绪任务上，DreamGym 以超过 30% 的优势超越所有基线方法；在 RL 就绪但成本高昂的场景中，仅使用合成交互即可达到与 GRPO 和 PPO 相当的性能。当将纯合成经验训练的策略迁移至实境 RL 时，DreamGym 在大幅减少实境交互次数的同时，带来显著的额外性能提升，为通用 RL 提供了一种可扩展的热启动策略。

π_RL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models

π_RL：基于流的视觉-语言-动作模型的在线强化学习微调

视觉-语言-动作 (VLA) 模型能够使机器人根据多模态输入理解并执行复杂任务。尽管近期研究探索利用强化学习 (RL) 自动化扩展监督微调 (SFT) 中繁重的数据收集流程，但由于基于流的 VLA (如 <math xmlns="http://www.w3.org/1998/Math/MathML"> π 0 \pi_0 </math>π0、 <math xmlns="http://www.w3.org/1998/Math/MathML"> π 0.5 \pi_{0.5} </math>π0.5) 通过迭代去噪产生的动作对数似然难以计算，大规模 RL 应用仍面临挑战。我们提出 <math xmlns="http://www.w3.org/1998/Math/MathML"> π RL \pi_{\text{RL}} </math>πRL 解决这一难题，这是一个支持在并行仿真中训练基于流 VLA 的开源框架。 <math xmlns="http://www.w3.org/1998/Math/MathML"> π RL \pi_{\text{RL}} </math>πRL 实现两种 RL 算法：(1) {Flow-Noise} 将去噪过程建模为离散时间马尔可夫决策过程 (MDP)，通过可学习的噪声网络实现精确对数似然计算；(2) {Flow-SDE} 将去噪与智能体-环境交互相结合，构建双层 MDP，采用常微分方程至随机微分方程 (ODE-to-SDE) 转换以提升 RL 探索效率。我们在 LIBERO 与 ManiSkill 基准测试中评估 <math xmlns="http://www.w3.org/1998/Math/MathML"> π RL \pi_{\text{RL}} </math>πRL。在 LIBERO 上， <math xmlns="http://www.w3.org/1998/Math/MathML"> π RL \pi_{\text{RL}} </math>πRL 将少样本 SFT 模型 <math xmlns="http://www.w3.org/1998/Math/MathML"> π 0 \pi_0 </math>π0 和 <math xmlns="http://www.w3.org/1998/Math/MathML"> π 0.5 \pi_{0.5} </math>π0.5 的性能分别从 57.6% 提升至 97.6% 和从 77.1% 提升至 98.3%。在 ManiSkill 中，我们于 320 个并行环境中训练 <math xmlns="http://www.w3.org/1998/Math/MathML"> π RL \pi_{\text{RL}} </math>πRL，在 4352 项抓取放置任务中，将 <math xmlns="http://www.w3.org/1998/Math/MathML"> π 0 \pi_0 </math>π0 从 41.6% 提升至 85.7%， <math xmlns="http://www.w3.org/1998/Math/MathML"> π 0.5 \pi_{0.5} </math>π0.5 从 40.0% 提升至 84.8%，证明了异构仿真环境下可扩展的多任务 RL 能力。总体而言， <math xmlns="http://www.w3.org/1998/Math/MathML"> π RL \pi_{\text{RL}} </math>πRL 相比 SFT 模型实现了显著性能提升与更强泛化能力，验证了在线 RL 对基于流 VLA 的有效性。

When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought

当可视化是推理的第一步：MIRA，一个视觉思维链基准

我们提出了 MIRA，这是一个新基准，旨在评估模型在生成中间视觉图像对成功推理至关重要的场景中的表现。与传统仅依赖文本的思维链方法不同，MIRA 中的任务要求模型生成并利用中间图像（如草图、结构图或路径图）来指导推理过程。这种设置模拟了人类通过"画图思考"解决复杂问题的方式。MIRA 专注于本质上具有挑战性的任务，这些任务涉及复杂结构、空间关系或难以仅用语言表达的推理步骤。为确保评估数据的高质量，我们包含了 546 个多模态问题，并标注了中间视觉图像和最终答案。我们还为 MIRA 设计了一个统一的评估协议，涵盖三个输入评估级别：仅图像和问题的直接输入、带图像和思考提示的纯文本思维链输入，以及带标注图像线索和文本思考提示的视觉思维链输入。为探索基准上模型能力的上限，我们报告了不同 k 设置下的 pass@k 和多数投票准确率。实验结果显示，现有多模态大语言模型（包括最强私有模型和强大开放权重模型）在仅依赖文本提示时表现不佳；但当提供中间视觉线索时，模型性能一致提升，在所有模型和任务中平均相对提升 33.7%。我们还通过扩展搜索空间和设计与视觉思维链对齐的文本提示来探索上限，但两者与视觉思维链设置相比改进有限。这些结果凸显了想象视觉信息在 MIRA 成功推理中的关键作用。

UniAVGen：基于非对称跨模态交互的统一音视频生成

由于缺乏有效的跨模态建模，现有开源音视频生成方法通常存在唇形同步效果不佳和语义一致性不足的问题。为解决这些局限，我们提出UniAVGen------一个统一的联合音视频生成框架。UniAVGen采用双分支联合合成架构，通过两个并行扩散Transformer (DiTs) 构建统一的跨模态潜在空间。其核心是非对称跨模态交互机制，该机制实现双向、时序对齐的跨注意力，从而确保精确的时空同步与语义一致性。此外，通过面部感知调制模块增强跨模态交互，该模块在交互过程中动态聚焦于显著区域。为提升推理阶段的生成质量，我们额外引入模态感知无分类器引导策略，这种创新方法能够显式增强跨模态关联信号。值得注意的是，UniAVGen的鲁棒联合合成设计使其能在单一模型中无缝集成关键音视频任务，包括联合音视频生成与续写、视频到音频配音以及音频驱动视频合成。综合实验表明，在训练样本量显著减少的情况下 (1.3M vs. 30.1M) ，UniAVGen在音视频同步性、音色一致性和情感一致性方面均展现出全面优势。

EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities

EBT-策略：能量解锁涌现的物理推理能力

基于生成模型 (如扩散策略) 的隐式策略，已成为机器人策略学习与视觉-语言-动作 (VLA) 模型的标准方法。然而，这些方法常面临高计算成本、暴露偏差及推理动态不稳定等问题，导致在分布偏移下容易发散。基于能量的模型 (EBMs) 通过端到端学习能量景观并建模平衡动力学，有效提高了鲁棒性并减少了暴露偏差。但传统上，基于EBMs的策略难以有效扩展。近期基于能量的Transformer (EBTs) 的研究证明了EBMs在高维空间的可扩展性，然而其在解决物理实体模型核心挑战方面的潜力仍待深入挖掘。我们提出了一种新型基于能量的架构------EBT-策略，旨在解决机器人及现实场景中的核心问题。在模拟与真实任务中，EBT-策略均持续优于基于扩散的策略，且所需训练与推理计算量更少。值得注意的是，对于某些任务，它仅需两个推理步骤即可收敛，较扩散策略的100步减少了50倍 (即步数降至1/50)。此外，EBT-策略展现出先前模型未见的涌现能力，例如仅通过行为克隆、无需显式重试训练，即可实现从失败动作序列的零样本恢复。通过利用其标量能量进行不确定性感知推理与动态计算分配，EBT-策略为在分布偏移下实现鲁棒、可泛化的机器人行为开辟了前景广阔的路径。

LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation

LEGO-Eval：基于工具增强的3D具身环境合成细粒度评估

尽管大语言模型 (LLMs) 在自动生成3D场景方面已取得进展，但生成结果常缺乏真实环境中的合理空间布局与对象属性。该问题根源在于指令描述过于粗略，因此需通过更精细、贴合现实场景的细粒度指令来改进3D场景合成。若缺乏真实场景，在虚拟环境中训练具身智能体会使其习得偏离真实物理规则与语义关系的先验知识，最终导致实际部署时性能下降。因此，验证细粒度指令与生成场景的一致性对有效学习至关重要。然而，现有评估方法（如CLIPScore与视觉语言模型VLMs）难以可靠衡量该一致性，主因在于其对3D场景理解不足，常导致场景元素关联错误。为此，我们提出LEGO-Eval评估框架，通过集成多类工具显式构建场景元素关联，从而实现更精准的一致性评估。同时，我们构建LEGO-Bench基准测试集，包含定义真实环境复杂布局与属性的详细指令集。实验表明，在场景-指令一致性评估中，LEGO-Eval的F1分数较VLM-as-a-judge提升0.41分。基于LEGO-Bench的测试揭示出现有生成方法的明显缺陷：所有被测方法生成完全符合细粒度指令场景的成功率最高仅为10%。