每周AI论文速递（250825-250829）

InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

我们推出 InternVL 3.5，这是一个全新的开源多模态模型家族，显著提升了 InternVL 系列在通用性、推理能力和推理效率方面的表现。其核心创新在于级联强化学习 (Cascade RL) 框架，该框架通过两阶段过程增强推理能力：离线强化学习确保稳定收敛，在线强化学习实现精细对齐。这种由粗到精的训练策略为下游推理任务（如 MMMU 和 MathVista）带来了显著提升。为优化效率，我们提出了视觉分辨率路由器 (ViR)，能够在不影响性能的前提下动态调整视觉 token 的分辨率。结合 ViR，我们的解耦视觉-语言部署 (DvD) 策略将视觉编码器与语言模型分离至不同 GPU，有效平衡了计算负载。这些改进使得 InternVL3.5 相比前代模型 InternVL3，实现了高达 16.0% 的整体推理性能提升和 4.05 倍的推理加速。此外，InternVL3.5 还支持图形用户界面 (GUI) 交互和具身智能体等新型能力。值得注意的是，我们最大的模型 InternVL3.5-241B-A28B 在通用多模态、推理、文本及智能体任务上，均达到了开源 MLLM 中的最先进水平，缩小了与 GPT-5 等领先商业模型的性能差距。所有模型与代码均已开源发布。

Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR

超越 Pass@1：基于变分问题合成的自我对弈持续增强 RLVR

可验证奖励强化学习 (Reinforcement Learning with Verifiable Rewards, RLVR) 近年来已成为大语言模型 (LLM) 后训练的关键范式，尤其适用于复杂推理任务。然而，基础版 RLVR 训练虽能提升 Pass@1 性能，却会牺牲策略熵，导致生成多样性下降并限制 Pass@k 性能------后者通常代表 LLM 推理能力的理论上限。本文从训练问题的角度系统分析策略生成多样性，发现通过增强和更新训练问题可有效缓解训练过程中的熵崩溃现象。基于此，我们提出一种在线自我对弈与变分问题合成 (Self-play with Variational problem Synthesis, SvS) 策略用于 RLVR 训练：利用策略生成的正确解合成变分问题，同时确保其参考答案与原始问题保持一致。这种自进化策略在训练期间持续维持策略熵，相比标准 RLVR 显著提升 Pass@k 性能，在竞赛级 AIME24 和 AIME25 基准测试中分别实现 Pass@32 性能 18.3% 和 22.8% 的绝对提升。在 12 个推理基准上从 3B 到 32B 不同模型规模的实验一致证明了 SvS 的泛化性与鲁棒性。

AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs

AgentFly：不微调大语言模型的智能体优化方法

本文提出了一种新型自适应大语言模型 (LLM) 智能体学习范式，无需对底层大语言模型进行参数微调。现有方法通常存在两种局限：要么过于固化------依赖静态的手工构建反思机制工作流，要么计算成本高昂------需要对大语言模型参数执行梯度更新。相比之下，本方法通过基于记忆的在线强化学习实现低成本持续自适应。我们将其形式化为记忆增强马尔可夫决策过程 (M-MDP) ，并配备神经案例选择策略来指导行为决策。历史经验存储于情景记忆（可微分或非参数化形式）中。策略通过记忆重写机制根据环境反馈持续更新，而策略改进则通过高效的记忆读取（检索）机制实现。我们在深度研究场景中实例化了名为 \emph{Memento} 的智能体模型，该模型在GAIA验证集上取得排名第一的成绩（87.88% Pass@3），在测试集上达到79.40%的通过率。在DeepResearcher数据集上获得66.6% F1值和80.4% PM值，性能超越最先进的基于训练的方法，其中基于案例的记忆机制在分布外任务上带来4.7%到9.6%的绝对百分比提升。该方法为开发通用大语言模型智能体提供了可扩展且高效的路径，无需梯度更新即可实现持续实时学习，推动机器学习向开放式技能习得和深度研究场景演进。代码已发布于 github.com/Agent-on-th...

VibeVoice Technical Report

VibeVoice 技术报告

本报告提出 VibeVoice------一种新颖的语音合成模型，其通过下一代 Token 扩散 (next-token diffusion) 技术实现多说话人长时语音合成。该技术采用扩散过程自回归生成潜在向量，是一种建模连续数据的统一方法。为此，我们设计了一种新型连续语音分词器 (continuous speech tokenizer)，相较于主流 Encodec 模型，在保持相当性能的同时将数据压缩比提升 80 倍。该分词器在显著增强长序列计算效率的同时，有效保持了音频保真度。这使得 VibeVoice 能够在 64K 上下文窗口长度下合成长达 90 分钟、最多包含 4 个说话人的语音，精准捕捉真实对话的「氛围」(vibe)，性能超越开源及专有对话模型。

Beyond Transcription: Mechanistic Interpretability in ASR

超越转录：ASR中的机制可解释性

可解释性方法近年来受到广泛关注，尤其在大语言模型领域，这些方法有助于理解语言表征、错误检测以及模型行为（如幻觉（hallucinations）和重复（repetitions））。然而，此类技术在自动语音识别（ASR）中仍探索不足，尽管它们具备改进ASR系统性能与可解释性的潜力。本研究通过调整并系统应用Logit Lens、线性探测（linear probing）和激活修补（activation patching）等成熟可解释性方法，探究声学与语义信息在ASR系统各层中的演化过程。实验揭示了以往未知的内部动态，包括导致重复幻觉的特定编码器-解码器交互机制，以及深层声学表征中编码的语义偏差。这些发现证明了将可解释性技术扩展至语音识别领域的价值，并为未来提升模型透明度与鲁棒性的研究指明了潜在方向。

Self-Rewarding Vision-Language Model via Reasoning Decomposition

通过推理分解实现自奖励的视觉语言模型

视觉语言模型 (Vision-Language Models, VLMs) 常存在视觉幻觉 (即描述图像中未实际出现的内容) 和语言捷径 (即跳过视觉处理直接依赖文本先验) 的问题。这些问题的根源在于：大多数 VLM 的后训练方法仅通过简单的可验证答案匹配来监督最终输出，而缺乏对中间视觉推理过程的显式指导。这导致模型接收的视觉信号稀疏，并倾向于优先采用基于语言的推理而非视觉感知。为解决该问题，现有方法通常通过人工标注或外部大模型蒸馏的标签引入视觉监督，但人工标注成本高昂且耗时，而外部信号无法适应模型策略的动态演化，可能引发分布偏移及奖励作弊。本文提出 Vision-SR1------一种基于强化学习的自奖励方法，无需依赖外部视觉监督即可提升视觉推理能力。该方法将 VLM 推理分解为视觉感知与语言推理两个阶段：首先引导模型生成自足式视觉感知 (即仅凭该感知即可回答问题而无需回溯原图像)，随后使用同一模型对生成的感知进行纯语言推理以计算奖励值，从而验证感知的自足性。最终将自奖励信号与输出监督相结合，形成平衡的训练信号，同步增强视觉感知与语言推理能力。实验表明，Vision-SR1 在多类视觉语言任务中均能提升视觉推理性能，有效缓解视觉幻觉并降低对语言捷径的依赖。

TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling

TreePO: 基于启发式树模型弥合策略优化的效能与推理效率鸿沟

近期基于强化学习的大语言模型对齐方法在解决复杂推理问题方面取得显著突破，但依赖昂贵的在线策略轨迹生成且对多样化推理路径的探索有限。本研究提出TreePO方法，其核心是通过将序列生成建模为树结构搜索过程的自引导轨迹生成算法。该方法结合动态树采样策略和定长分段解码技术，利用局部不确定性指导额外分支的生成。通过共享公共前缀的计算资源并早期剪枝低价值路径，TreePO在保持甚至增强探索多样性的同时，显著降低了单次策略更新的计算开销。主要创新包括：(1) 采用连续分段的分段采样算法降低KV缓存压力，结合早停机制动态生成新分支；(2) 基于树的段级优势估计方法，同时兼顾全局和局部的近端策略优化目标；(3) 对概率驱动与质量驱动的动态发散策略及回退机制的有效性分析。实验结果表明，TreePO在多项推理基准测试中均取得性能提升，使训练模型的采样设计节省22%-43%的GPU时耗，对现有模型实现了轨迹级40%和token级35%的采样计算量降低。在提升推理效率的同时，TreePO为基于更少样本和更低计算成本的强化学习后训练提供了可行路径。项目主页详见m-a-p.ai/TreePO。

Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning

Pref-GRPO：基于成对偏好奖励的GRPO实现稳定文本到图像强化学习

最新研究表明，基于GRPO的强化学习方法及基准测试对提升文本到图像 (T2I) 生成至关重要。然而，当前使用逐点奖励模型 (RM) 对生成图像评分的方法容易受到奖励破解 (Reward Hacking) 的影响。我们发现，当图像间微小分数差异在归一化后被放大时，会产生虚假优势，驱使模型过度追求微小增益，最终破坏图像生成过程的稳定性。为解决此问题，我们提出Pref-GRPO------一种基于成对偏好奖励的GRPO方法，它将优化目标从分数最大化转向偏好拟合，从而确保更稳定的训练。在Pref-GRPO中，图像在每组内通过偏好RM进行成对比较，并以胜率作为奖励信号。大量实验证明，PREF-GRPO能有效区分细微的图像质量差异，提供更稳定的优势并缓解奖励破解。此外，现有T2I基准受限于粗糙的评估标准，难以全面评估模型性能。为此，我们推出UniGenBench------一个统一的T2I基准，包含5个主题和20个子主题下的600条提示。该基准通过10个主要标准和27个子标准评估语义一致性，并利用多模态大语言模型 (MLLM) 完成基准构建与评估。我们的基准测试揭示了开源和闭源T2I模型的优缺点，同时验证了Pref-GRPO的有效性。

rStar2-Agent: Agentic Reasoning Technical Report

rStar2-Agent：智能体推理技术报告

我们推出 rStar2-Agent，这是一个通过智能体强化学习训练的 140 亿参数数学推理模型，旨在实现前沿性能。除当前思维链 (Chain-of-Thought, CoT) 方法外，该模型展现出先进的认知行为：在使用 Python 编码工具前仔细思考，并通过反思代码执行反馈自主探索、验证和优化复杂问题解决中的中间步骤。该能力由三项关键创新实现：（i）高效的强化学习基础设施，配备可靠 Python 代码环境，支持高吞吐量执行并降低交互成本，使得仅用 64 块 MI300X GPU 即可完成训练；（ii）GRPO-RoC 算法，采用正确重采样 (Resample-on-Correct) 的交互策略，解决编码工具固有环境噪声，提升代码环境中的推理效率；（iii）从非推理监督微调开始，经多阶段强化学习进阶的高效训练方案，以最小计算成本获得高级认知能力。最终，rStar2-Agent 仅用 510 步强化学习训练（一周内）便将预训练 140 亿参数模型提升至业界最优水平，在 AIME24 和 AIME25 上分别达到 80.6% 和 69.8% 的平均 pass@1 得分，在响应长度显著缩短的同时超越 DeepSeek-R1（6710 亿参数）。该模型还展现出在对齐任务、科学推理及智能体工具使用方面的强泛化能力。代码与训练方案详见 github.com/microsoft/r...

CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics

CMPhysBench: 一个用于评估大语言模型在凝聚态物理学中能力的基准

我们提出了 CMPhysBench，这是一个新颖的基准，旨在评估大语言模型 (LLMs) 在凝聚态物理学领域的能力。CMPhysBench 包含了超过 520 个研究生级别的精选题目，涵盖了凝聚态物理学的代表性分支领域和基础理论框架，例如磁性、超导、强关联系统等。为了确保对问题解决过程的深入理解，我们专注于计算题，要求 LLMs 独立生成完整的解答。同时，基于表达式的树形表示，我们引入了可扩展表达式编辑距离 (SEED) 分数，该分数提供细粒度 (非二元) 的部分得分，从而能更准确地评估预测答案与标准答案之间的相似性。我们的结果表明，即使是最优模型 Grok-4，在 CMPhysBench 上也仅取得了 36 的平均 SEED 分数和 28% 的准确率，这凸显了 (特别是相对于传统物理学而言) 大语言模型在这一实践性强且处于前沿的领域中存在显著的能力差距。代码和数据集已公开于 github.com/CMPhysBench...