ERNIE 5.0 Technical Report
本报告介绍了 ERNIE 5.0,这是一个原生自回归的基础模型,专为跨文本、图像、视频和音频的统一多模态理解与生成而设计。所有模态均基于一个采用模态无关专家路由的超稀疏专家混合 (Mixture-of-Experts, MoE) 架构,在统一的下一令牌组预测目标下从头开始训练。为应对多样化资源约束下大规模部署的实际挑战,ERNIE 5.0 采用了一种新颖的弹性训练范式。在单次预训练过程中,模型学习了一系列具有不同深度、专家容量和路由稀疏度的子模型,从而能够在内存或时间受限的场景中,灵活权衡性能、模型大小与推理延迟。此外,我们系统性地解决了将强化学习扩展至统一基础模型所面临的挑战,从而确保了在超稀疏 MoE 架构及多样化多模态设置下高效且稳定的后训练。大量实验表明,ERNIE 5.0 在多种模态上均取得了强大且均衡的性能。据我们所知,在已公开的模型中,ERNIE 5.0 是首个实现生产级部署的、支持多模态理解与生成的万亿参数统一自回归模型。为促进后续研究,我们详细可视化了统一模型中的模态无关专家路由,并对弹性训练进行了全面的实证分析,旨在为学界和业界提供深入洞察。
Green-VLA: Staged Vision-Language-Action Model for Generalist Robots
Green-VLA:面向通用机器人的分阶段视觉-语言-动作模型
我们提出了 Green-VLA,这是一个分阶段的视觉-语言-动作 (VLA) 框架,旨在 Green 人形机器人上进行实际部署,同时保持对不同机器人平台 (embodiment) 的泛化能力。Green-VLA 遵循一个五阶段的训练方案:(L0) 基础视觉语言模型 (VLM),(L1) 多模态关联 (grounding),(R0) 多平台预训练,(R1) 特定平台适应,以及 (R2) 强化学习 (RL) 策略对齐。我们构建了一个可扩展的数据处理流水线 (包含 3000 小时的演示数据),并进行了时间对齐和质量过滤;同时采用了一个统一的、感知平台信息的动作接口,使得单一策略能够控制人形机器人、移动机械臂和固定基座机械臂。在推理阶段,该 VLA 控制器通过集成情节进度预测、分布外 (OOD) 检测以及基于联合预测的引导机制来增强,从而提升安全性和目标选择的精确性。在 Simpler BRIDGE WidowX 和 CALVIN ABC-D 仿真环境中的实验,以及真实机器人评估结果表明,RL 对齐显著提升了模型的泛化能力和性能,具体体现在成功率、鲁棒性和长程任务效率上。
Kimi K2.5: Visual Agentic Intelligence
我们介绍 Kimi K2.5,一个旨在提升通用智能体智能 (General Agentic Intelligence) 的开源多模态智能体模型。K2.5 强调文本与视觉的联合优化,使两种模态能够相互增强。这包括一系列技术,例如联合文本-视觉预训练、零视觉监督微调 (Zero-vision SFT) 以及联合文本-视觉强化学习。在此多模态基础之上,K2.5 引入了智能体集群 (Agent Swarm),这是一个自主的并行智能体编排框架,能够动态地将复杂任务分解为异构的子问题并进行并发执行。大量评估表明,Kimi K2.5 在编码、视觉、推理及智能体任务等多个领域均取得了最先进的性能。相比单智能体基线,智能体集群将延迟最高降低了 <math xmlns="http://www.w3.org/1998/Math/MathML"> 4.5 4.5 </math>4.5 倍。我们发布了经过后训练的 Kimi K2.5 模型检查点,以促进智能体智能的未来研究及实际应用。
Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models
Vision-DeepResearch:激发多模态大语言模型的深度研究能力
多模态大语言模型 (MLLMs) 已在广泛的视觉任务中取得显著成功。然而,受限于其内部世界知识储备,先前研究提出通过"先推理后工具调用"的策略来增强 MLLMs,即借助视觉与文本搜索引擎,从而在需要大量事实信息的任务上获得显著提升。然而,这些方法通常基于一种简化的多模态搜索设定,即假设仅凭一个全图级或实体级的图像查询及少量文本查询,便足以检索到回答问题所需的关键证据。这在视觉噪声严重的实际场景中并不现实。此外,它们在推理深度和搜索广度上也往往受限,难以解决那些需要聚合来自多样视觉与文本源证据的复杂问题。基于此,我们提出了 Vision-DeepResearch,它引入了一种新的多模态深度研究范式,能够执行多轮次、多实体、多尺度的视觉与文本搜索,从而在强噪声环境下稳定、有效地利用现实世界的搜索引擎。我们的 Vision-DeepResearch 支持数十步推理和数百次搜索引擎交互,并通过冷启动监督和强化学习 (RL) 训练,将深度研究能力内化于 MLLM 之中,最终构建出一个强大的端到端多模态深度研究 MLLM。其性能大幅超越了现有的多模态深度研究 MLLMs,以及基于 GPT-5、Gemini-2.5-pro 和 Claude-4-Sonnet 等强大闭源基础模型构建的工作流。代码将在 github.com/Osilly/Visi... 发布。
PaperBanana: Automating Academic Illustration for AI Scientists
尽管由语言模型驱动的自主 AI 科学家发展迅速,但在研究流程中,生成可直接用于发表的插图仍然是一个劳动密集型的瓶颈。为了减轻这一负担,我们提出了 PaperBanana,一个用于自动生成达到发表标准的学术插图的智能体框架。该框架依托最先进的视觉语言模型和图像生成模型,通过编排多个专用智能体来执行参考文献检索、内容与风格规划、图像渲染等任务,并基于自我反馈进行迭代优化。为了严格评估该框架,我们构建了 PaperBananaBench 基准测试集,其中包含 292 个从 NeurIPS 2025 出版物中精选的方法图测试用例,涵盖了不同的研究领域和插图风格。全面的实验表明,PaperBanana 在忠实度、简洁性、可读性和美观性方面均持续优于主流基线方法。我们还展示了该方法能有效扩展到高质量统计图的生成。综上所述,PaperBanana 为实现可直接用于发表的插图的自动化生成铺平了道路。
Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models
Vision-DeepResearch 基准测试:重新思考多模态大语言模型的视觉与文本搜索
多模态大语言模型 (MLLMs) 推动了视觉问答 (VQA) 的进步,现已能够支持利用搜索引擎进行复杂视觉-文本事实查找的 Vision-DeepResearch 系统。然而,评估这些视觉与文本搜索能力仍然面临挑战,现有基准测试存在两大主要局限。首先,现有基准并非以视觉搜索为核心:那些本应依赖视觉搜索才能得出的答案,常常通过文本问题中的跨文本线索泄露,或者可以利用当前 MLLMs 已有的世界知识推断出来。其次,评估场景过于理想化:在图像搜索方面,所需信息往往可以通过与完整图像进行近乎精确的匹配获得;而在文本搜索方面,问题则过于直接,缺乏足够的挑战性。为解决这些问题,我们构建了 Vision-DeepResearch 基准测试 (VDR-Bench),包含 2,000 个 VQA 实例。所有问题均通过一个精心设计的多阶段筛选流程和严格的专家评审创建,旨在评估 Vision-DeepResearch 系统在真实世界条件下的表现。此外,针对当前 MLLMs 视觉检索能力不足的问题,我们提出了一种简单的多轮裁剪搜索工作流程。该策略经证明可有效提升模型在真实视觉检索场景中的性能。总体而言,我们的研究结果为未来多模态深度研究系统的设计提供了实用指导。代码将在 github.com/Osilly/Visi... 发布。
FASA: Frequency-aware Sparse Attention
大语言模型 (LLMs) 在处理长输入时面临一个关键瓶颈:键值 (Key-Value, KV) 缓存的巨大内存占用。为了解决这一瓶颈,Token 剪枝范式利用注意力机制的稀疏性,有选择地保留一小部分关键的 Token。然而,现有方法存在不足:静态方法存在不可逆信息丢失的风险,而动态策略所采用的启发式方法,又不足以捕捉 Token 重要性对查询的依赖性。我们提出了 FASA,这是一个通过动态预测 Token 重要性来实现查询感知 Token 淘汰的新框架。FASA 源于对 RoPE 的一个新颖洞察:在频率块 (Frequency-Chunk, FC) 级别发现了功能性的稀疏特征。我们的核心发现是,一小部分可识别的"主导"FCs,其上下文信息始终与完整注意力头保持高度一致。这为识别显著 Token 提供了一个鲁棒且无需额外计算成本的代理指标。基于这一洞察,FASA 首先利用主导 FCs 识别出一组关键 Token,然后仅在这个剪枝后的子集上执行集中的注意力计算。在一系列长上下文任务中,从序列建模到复杂的思维链 (CoT) 推理,FASA 的性能始终优于所有 Token 淘汰基线,并达到了接近 Oracle 的准确度,即使在有限的缓存预算下也表现出显著的鲁棒性。值得注意的是,在 LongBench-V1 基准测试上,当仅保留 256 个 Token 时,FASA 达到了接近 100% 的完整 KV 缓存性能;在 AIME24 上,仅使用 18.9% 的缓存就实现了 2.56 倍的加速。
CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding
大语言模型 (LLMs) 在源代码理解方面已取得巨大成功,但随着软件系统规模的扩大,计算效率已成为关键瓶颈。目前,这些模型依赖于基于文本的范式,将源代码视为线性 Token 序列,这导致上下文长度及相应的计算成本线性增长。多模态大语言模型 (MLLMs) 的快速发展,带来了通过将源代码表示为渲染图像来优化效率的机会。与难以无损压缩的文本不同,图像模态天生适合压缩。通过调整分辨率,图像可以以远低于原始 Token 成本的大小表示,同时仍能被具备视觉能力的模型识别。为探索该方法的可行性,我们首次系统性探究了 MLLMs 在代码理解中的有效性。我们的实验发现:(1) MLLMs 能在显著减少 Token 的情况下有效理解代码,实现高达 8 倍的压缩率;(2) MLLMs 能有效利用语法高亮等视觉线索,在 4 倍压缩下提升代码补全性能;(3) 克隆检测等代码理解任务对视觉压缩表现出极强的鲁棒性,在某些压缩率下,其性能甚至略优于原始文本输入。我们的研究结果既突显了 MLLMs 在代码理解中的潜力,也揭示了其当前局限,这指明了向图像模态代码表示转变,是实现更高效推理的一条路径。
WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning
WideSeek-R1: 通过多智能体强化学习探索广泛信息搜索的宽度扩展
近期大语言模型 (LLMs) 的进展主要集中于深度扩展,即单个智能体通过多轮推理和工具使用来解决长程问题。然而,随着任务范围变广,关键瓶颈从个体能力转向了协同组织能力。为此,我们探索了宽度扩展这一互补维度,利用多智能体系统来解决广泛信息搜索问题。现有的多智能体系统通常依赖于手动设计的工作流程和轮流执行的交互,难以实现有效的工作并行化。为弥补这一不足,我们提出了 WideSeek-R1,这是一个通过多智能体强化学习 (MARL) 训练的主智能体-子智能体框架,旨在协同实现可扩展的编排与并行执行。通过利用一个共享 LLM(具有隔离的上下文和专用工具),WideSeek-R1 在一个包含 2 万个广泛信息搜索任务的精选数据集上,对主智能体与并行子智能体进行了联合优化。大量实验表明,WideSeek-R1-4B 在 WideSearch 基准测试中取得了 40.0% 的项目 F1 分数,其性能与单智能体 DeepSeek-R1-671B 相当。此外,随着并行子智能体数量的增加,WideSeek-R1-4B 展现出持续的性能提升,这凸显了宽度扩展的有效性。
Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text
Golden Goose: 一种从不可验证互联网文本合成无限 RLVR 任务的简单技巧
可验证奖励的强化学习 (Reinforcement Learning with Verifiable Rewards, RLVR) 已成为解锁大语言模型复杂推理能力的关键基石。然而,强化学习的规模化应用受限于现有可验证数据的匮乏,导致模型在长时间训练后性能提升逐渐饱和。为突破此限制,我们提出了 Golden Goose,这是一种简单的技巧,通过将填空任务转化为单项选择题形式,能够从不可验证的互联网文本中合成无限的 RLVR 任务。具体而言,给定一段源文本,我们提示一个大语言模型识别并掩码其中的关键推理步骤,随后生成一组多样且合理的干扰选项。这种方法使我们能够利用那些富含推理但通常被排除在传统 RLVR 数据构建之外的不可验证语料库 (例如科学教科书),进而合成了 GooseReason-0.7M------一个包含超过 70 万个任务的大规模 RLVR 数据集,涵盖数学、编程和通用科学等多个领域。实验结果表明,GooseReason 能有效促使在现有 RLVR 数据上性能饱和的模型恢复性能提升,在持续强化学习下带来稳健且持续的收益,并在 15 个不同的基准测试上,为 1.5B 和 4B-Instruct 参数规模的模型取得了新的最优性能。最后,我们将 Golden Goose 应用于实际场景,从原始的 FineWeb 网络抓取数据中,为先前不存在 RLVR 数据的网络安全领域合成了任务。使用所得数据 GooseReason-Cyber 训练 Qwen3-4B-Instruct 模型,在网络安全任务上取得了新的最优性能,其表现甚至超越了经过大量领域特定预训练与后训练的 7B 参数领域专用模型。这充分证明了通过利用互联网上丰富、富含推理但不可验证的文本资源,能够有效实现 RLVR 数据的自动化规模扩展。
AOrchestra: Automating Sub-Agent Creation for Agentic Orchestration
语言智能体在任务自动化方面展现出巨大潜力。为了应对日益复杂、周期更长的任务,实现这一潜力,推动了用于多轮任务求解的"子智能体即工具"范式的兴起。然而,现有设计仍缺乏对子智能体的动态抽象视角,从而限制了其适应性。为解决这一挑战,我们提出了一种统一的、与框架无关的智能体抽象,它将任何智能体建模为一个元组(指令,上下文,工具,模型)。该元组充当了能力的组合配方,使系统能够按需为每个任务生成专门的执行器。基于此抽象,我们引入了智能体系统 AOrchestra。在该系统中,中央编排器在每一步具体化该元组:它负责筛选与任务相关的上下文、选择合适的工具和模型,并通过动态自动创建智能体来委托执行。这种设计有助于减少人工工程投入,并保持与底层框架无关,能够以即插即用的方式支持多样化的智能体作为任务执行器。同时,它还实现了可控的性能-成本权衡,使系统能够趋近于帕累托最优。在三个具有挑战性的基准测试(GAIA, SWE-Bench, Terminal-Bench)中,当与 Gemini-3-Flash 配合使用时,AOrchestra 相比最强基线实现了 16.28% 的相对性能提升。代码可在以下网址获取:github.com/FoundationA...
Closing the Loop: Universal Repository Representation with RPG-Encoder
当前的代码库智能体因表示碎片化而面临推理断层问题,因为现有方法依赖于孤立的 API 文档或缺乏语义深度的依赖图。我们将代码库的理解与生成视为一个统一循环内的两个逆过程:生成将意图展开为具体实现,而理解则将实现归纳回原始意图。为解决此问题,我们提出了 RPG-Encoder 框架,它将仓库规划图 (Repository Planning Graph, RPG) 从一个静态的生成蓝图,提升为一种统一且高保真的代码库表示形式。RPG-Encoder 通过三种机制实现推理闭环:(1) 将原始代码编码为 RPG,该图融合了抽象出的语义特征与代码依赖关系;(2) 逐步演化拓扑结构,使维护成本与代码库规模解耦,将开销降低了 95.7%;(3) 作为一个统一接口,支持结构感知导航。在评估中,RPG-Encoder 在 SWE-bench Verified 上以 93.7% 的 Acc@5 取得了最先进的代码定位性能,并在 SWE-bench Live Lite 上的定位准确率超出最佳基线 10% 以上。这些结果凸显了我们的方法在复杂代码库中具备的优越细粒度精度。此外,它在 RepoCraft 上实现了 98.5% 的重建覆盖率,证实了 RPG 具备高保真反映原始代码库的能力,从而在意图与实现之间实现了闭环。
UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing
UniReason 1.0:一个面向世界知识对齐图像生成与编辑的统一推理框架
统一的多模态模型在处理需要深度推理的复杂合成任务时常常面临困难,并且通常将文本到图像生成和图像编辑视为两种孤立的能力,而非相互关联的推理步骤。为解决此问题,我们提出了 UniReason,这是一个通过两种互补的推理范式将这两项任务整合在一起的统一框架。我们将世界知识增强的文本推理融入图像生成过程,以推断隐含知识 (implicit knowledge),并利用编辑能力进行细粒度的、类似编辑的视觉精炼,通过自我反思进一步纠正视觉错误。该方法在一个共享架构内统一了生成与编辑,模拟了人类先规划后精炼的认知过程。为支持此框架,我们系统性地构建了一个大规模、以推理为中心的数据集(约 30 万个样本),涵盖文化常识、物理学等五个主要知识领域用于文本推理,同时构建了一个由 AI 智能体 (AI Agent) 生成的语料库用于视觉精炼。大量实验表明,UniReason 在 WISE、KrisBench 和 UniREditBench 等推理密集型基准测试上取得了领先的性能,同时保持了优异的通用图像合成能力。
Training Data Efficiency in Multimodal Process Reward Models
多模态过程奖励模型 (MPRMs) 是多模态大语言模型 (MLLMs) 中进行视觉推理步骤级监督的核心组件。训练 MPRMs 通常需要大规模经过蒙特卡洛 (MC) 方法标注的数据集,这会带来巨大的训练成本。本文研究了 MPRM 训练的数据效率问题。我们的初步实验发现,对训练数据进行随机子采样时,MPRM 训练性能会迅速达到饱和,这表明现有 MC 标注数据集中存在大量冗余。为解释此现象,我们建立了一个理论框架,并指出有效的梯度更新取决于两个关键因素:正负步骤的标签构成以及标签的可靠性 (即正步骤的平均 MC 分数)。基于这些见解,我们提出了平衡信息分数 (BIS),该方法在 rollout 级别直接利用现有的 MC 信号,无需额外成本,即可对数据点的混合性与可靠性进行优先级排序。在 VisualProcessBench 基准上,针对两个骨干模型 (InternVL2.5-8B 和 Qwen2.5-VL-7B),由 BIS 筛选出的数据子集在仅使用一小部分数据时,其性能始终与使用全数据时相当甚至更优。值得注意的是,仅使用 10% 的训练数据,BIS 子集就能达到全数据性能,相比随机子采样方法性能相对提升了 4.1%。
CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty
CAR-bench: 评估现实世界不确定性下大语言模型智能体的一致性与能力边界认知
现有的大语言模型 (LLM) 智能体基准主要关注理想化场景下的任务完成度,却忽视了其在面向用户的真实应用中的可靠性。例如在车载语音助手等场景中,用户常提出不完整或模糊的请求,由此产生的内在不确定性需要智能体通过对话、工具调用和策略遵循来妥善处理。为此,我们提出了 CAR-bench,这是一个用于评估车载助手领域内多轮次、使用工具的 LLM 智能体在一致性、不确定性处理及能力认知方面的基准。该测试环境包含一个由 LLM 模拟的用户、特定领域策略以及 58 个相互关联的工具,覆盖导航、生产力、充电和车辆控制等功能。除了标准的任务完成度评估,CAR-bench 还引入了两类任务:幻觉任务 (Hallucination tasks) ,用于测试智能体在工具或信息缺失时对自身能力边界的认知;以及消歧任务 (Disambiguation tasks) ,要求智能体通过澄清提问或内部信息搜集来化解不确定性。基线测试结果表明,各类任务上偶尔成功与持续成功之间存在巨大差距。即使是前沿的推理大语言模型,也因过早行动而在消歧任务上的持续通过率不足 50%;在幻觉任务中,它们为满足用户请求而频繁违反策略或虚构信息。这些发现凸显了在现实场景中开发更可靠、更具自省能力的大语言模型智能体的必要性。
No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs
本研究源于先前关于思维链 (Chain-of-Thought, CoT) 动态的两项互补观察:大语言模型 (Large Language Models, LLMs) 在 CoT 外显之前就已展现出对后续推理的潜在规划,从而削弱了显式 CoT 的重要性;然而,对于需要多步推理的任务,CoT 仍然至关重要。为了深入理解大语言模型的内部状态与其外显推理轨迹之间的关系,我们采用探测方法 Tele-Lens,将其应用于不同任务领域的隐藏状态,以研究大语言模型的潜在规划能力。我们的实证结果表明,大语言模型表现出一种近视的规划范围,主要进行增量式状态转换,而非精确的全局规划。基于这一特性,我们提出了一个关于增强 CoT 不确定性估计的假设,并验证了仅使用 CoT 位置的一个小子集即可有效表征整个推理路径的不确定性。我们进一步强调了利用 CoT 动态特性的重要性,并证明了自动识别 CoT 旁路 (bypass) 可以在不损失性能的情况下实现。我们的代码、数据和模型已发布于 github.com/lxucs/tele-...
Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening
Spider-Sense: 基于分层自适应筛查的高效智能体防御与内在风险感知
随着大语言模型 (LLMs) 发展为自主智能体,其实际应用范围已显著扩大,同时也带来了新的安全挑战。大多数现有的智能体防御机制采用强制检查范式,即在智能体生命周期的预定义阶段强制触发安全验证。在本工作中,我们认为有效的智能体安全应是内在且选择性的,而非与架构解耦且强制性的。我们提出了 Spider-Sense 框架,这是一个基于内在风险感知 (Intrinsic Risk Sensing, IRS) 的事件驱动防御框架,它使得智能体能够持续保持警戒状态,并仅在感知到风险时才触发防御。一旦触发,Spider-Sense 便会调用一个在效率与精度之间进行折衷的分层防御机制:通过轻量级相似性匹配处理已知模式,同时将模糊案例交由深度内部推理处理,从而消除了对外部模型的依赖。为便于进行严格评估,我们引入了 S <math xmlns="http://www.w3.org/1998/Math/MathML"> 2 ^2 </math>2Bench,这是一个包含现实工具执行和多阶段攻击的、基于生命周期的基准测试。大量实验表明,Spider-Sense 实现了具有竞争力乃至更优的防御性能,取得了最低的攻击成功率 (ASR) 和误报率 (FPR),且仅带来 8.3% 的边际延迟开销。
MARS: Modular Agent with Reflective Search for Automated AI Research
自动化AI研究与通用软件工程不同,其区别在于评估(例如模型训练)的计算成本高昂,且性能归因不透明。当前基于大语言模型的智能体在此面临挑战,常常生成忽略执行成本与因果因素的一体化脚本。为此,我们提出了MARS(模块化智能体与反思搜索),这是一个专为自主AI研究优化的框架。MARS基于三大核心支柱:(1) 通过成本受限的蒙特卡洛树搜索(MCTS)进行预算感知规划,以显式平衡性能与执行开销;(2) 采用"设计-分解-实现"流程的模块化构建,用以管理复杂的研究仓库;(3) 比较反思记忆,通过分析解决方案之间的差异来提炼高价值洞察,从而解决信用分配问题。在可比设置下,MARS在MLE-Bench基准测试中取得了开源框架中的最先进性能,并与全球排行榜上的顶级方法保持竞争力。此外,系统还表现出定性的"顿悟"时刻:所有被利用的经验教训中,有63%源自跨分支迁移,这证明该智能体能够有效地将洞察推广到不同搜索路径。
SWE-Universe: Scale Real-World Verifiable Environments to Millions
SWE-Universe:将真实世界可验证环境扩展至百万规模
我们提出了 SWE-Universe,这是一个可扩展且高效的框架,用于基于 GitHub 拉取请求 (PR) 自动构建真实世界的软件工程 (SWE) 可验证环境。为了克服自动构建中普遍存在的挑战,如构建成功率低、验证能力弱以及成本过高,我们的框架采用了一个由高效定制训练模型驱动的构建智能体。该智能体运用迭代式自我验证与循环内异常检测,以确保可靠地生成高保真、可验证的任务。利用此方法,我们将真实世界的多语言 SWE 环境规模扩展到了百万级别 (807,693)。我们通过大规模智能体中期训练和强化学习,证明了我们构建的环境具有重要价值。最后,我们将此技术应用于 Qwen3-Max-Thinking 模型,使其在 SWE-Bench Verified 基准测试中取得了 75.3% 的得分。我们的工作为推进下一代编码智能体的发展,提供了关键资源和一套稳健的方法。
ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas
大语言模型 (LLMs) 正日益被用作工具增强的智能体以进行多步决策,然而,训练鲁棒的工具使用智能体仍然面临挑战。现有方法通常仍需人工干预,依赖于不可验证的模拟环境,仅采用监督微调 (SFT) 或强化学习 (RL) 中的一种,并且在稳定的长视野、多轮学习方面存在困难。为应对这些挑战,我们提出了 ASTRA,这是一个完全自动化的端到端框架,通过可扩展的数据合成和可验证的强化学习来训练工具增强的语言模型智能体。ASTRA 集成了两个互补的组件。首先,一个利用工具调用图静态拓扑的流水线,能够合成多样化、结构上具身的轨迹,从而培养广泛且可迁移的工具使用能力。其次,一个环境合成框架,它捕捉了人类语义推理的丰富、组合式拓扑结构,能够将分解后的问题-答案记录转换为独立的、可代码执行的、规则可验证的环境,从而实现确定性的多轮 RL。基于此方法,我们开发了一种统一的训练方法,该方法利用轨迹级奖励将 SFT 与在线 RL 相结合,以平衡任务完成度与交互效率。在多个智能体工具使用基准测试上的实验表明,ASTRA 训练的模型在规模相当的情况下实现了最先进的性能,接近闭源系统的水平,同时保持了核心推理能力。我们在 github.com/LianjiaTech... 发布了完整的流水线、环境和训练好的模型。
Quartet II: Accurate LLM Pre-Training in NVFP4 by Improved Unbiased Gradient Estimation
Quartet II:通过改进的无偏梯度估计在 NVFP4 中实现准确的大语言模型预训练
NVIDIA Blackwell GPU 硬件支持的 NVFP4 低精度格式,首次使得对大语言模型等大规模模型进行端到端的全量化预训练成为可能。然而,现有的量化训练方法为了通过随机舍入 (SR) 获得更准确的无偏量化梯度估计,仍需牺牲该格式的部分表示能力,从而导致其精度相较于标准的 FP16 和 FP8 训练有明显下降。本文提出了一种针对微缩格式的新型无偏量化方法 MS-EDEN,其量化误差不到 SR 的一半,并借此提升了 NVFP4 量化训练的技术水平。我们将 MS-EDEN 集成到一个名为 Quartet II 的新型全 NVFP4 线性层量化方案中。分析表明,Quartet II 在前向传播和反向传播的所有主要矩阵乘法运算中,都能持续实现更优的梯度估计。此外,我们的方案与近期专为 NVFP4 设计的训练优化方法能够良好协同。我们进一步在端到端的大语言模型训练上验证了 Quartet II,模型参数规模达 1.9B,训练数据量达 38B 个 Token。我们提供了可在 NVIDIA Blackwell GPU 上运行的内核,与 BF16 相比,最高可实现 4.2 倍的加速。代码开源地址:github.com/IST-DASLab/... 。
3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation
现有的视频生成中的人体运动控制方法,通常依赖于 2D 姿态或显式的 3D 参数化模型 (例如,SMPL) 作为控制信号。然而,2D 姿态将运动严格绑定在驱动视角上,无法进行新视角合成。显式 3D 模型虽然能提供结构信息,但存在固有误差 (例如,深度模糊和动力学不准确),当将其用作强约束时,会压制大规模视频生成器本身强大的内在 3D 感知能力。在本工作中,我们从 3D 感知的角度重新审视运动控制,提出一种隐式的、视角无关的运动表示方法。该方法能够自然地与生成器的空间先验对齐,而非依赖于外部重建的约束。我们提出了 3DiMo,它联合训练一个运动编码器与一个预训练的视频生成器,将驱动帧提炼成紧凑的、视角无关的运动 token (Motion Token),并通过交叉注意力进行语义注入。为了增强 3D 感知能力,我们采用视角丰富的监督数据进行训练 (即单视角、多视角和运动相机视频),以强制实现不同视角间的运动一致性。此外,我们使用了辅助几何监督,该监督仅在早期初始化阶段利用 SMPL,并逐渐退火至零。这使得模型能够从外部 3D 指导,过渡到从数据及生成器先验中学习真正的 3D 空间运动理解。实验证实,3DiMo 能够通过灵活的、文本驱动的相机控制,准确复现驱动运动,在运动保真度和视觉质量方面均显著超越了现有方法。
daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently
尽管大语言模型 (LLMs) 在短期任务上表现出色,但将其扩展到长周期的智能体工作流仍然面临挑战。核心瓶颈在于缺乏能够捕捉真实长程依赖结构和跨阶段动态演化过程的训练数据------现有的合成方法要么局限于受模型分布约束的单一任务场景,要么需要高昂的人工标注成本,无法提供可扩展、高质量的监督。我们通过从现实世界软件演化的视角重新构想数据合成来解决这一问题。我们的核心见解是:拉取请求 (Pull Request, PR) 序列天然蕴含了长周期学习所需的监督信号。它们将复杂目标分解为可验证的提交单元,在多次迭代间保持功能一致性,并通过错误修复历史编码真实的精炼模式。基于此,我们提出了 daVinci-Agency,它通过三个相互关联的机制,系统地从 PR 链中挖掘结构化监督:(1) 通过持续提交实现渐进式任务分解,(2) 通过统一功能目标强制执行长期一致性,以及 (3) 从真实的错误修复轨迹中获取可验证的精炼过程。与那些独立处理各步骤的合成轨迹不同,daVinci-Agency 基于 PR 的结构固有地保留了对于训练持久性目标导向行为至关重要的因果依赖和迭代精炼,并能自然地与项目级、完整周期的任务建模对齐。由此产生的轨迹规模庞大------平均包含 85k 个 Token 和 116 次工具调用------但数据效率却出奇地高:仅使用 239 个 daVinci-Agency 样本对 GLM-4.6 进行微调,便在多个基准测试上取得了全面的性能提升,尤其在 Toolathlon 上实现了 47% 的相对增益。除了基准测试性能,我们的分析证实...
Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks
世界模型已成为人工智能研究的一个关键前沿,其目标是通过融入物理动力学和世界知识来增强大语言模型。核心目标是使 AI 智能体能够理解、预测并与复杂环境进行交互。然而,当前的研究格局仍呈碎片化,现有方法主要侧重于将世界知识融入视觉预测、3D 估计或符号接地等独立任务,而非建立一个统一的定义或框架。尽管这些针对特定任务的集成带来了性能提升,但它们通常缺乏实现整体世界理解所需的系统性连贯性。本文分析了此类碎片化方法的局限性,并提出了一套世界模型的统一设计规范。我们认为,一个稳健的世界模型不应是各种能力的松散组合,而应是一个规范性的框架,能够有机整合交互、感知、符号推理和空间表示。本工作旨在提供一个结构化的视角,以指导未来研究发展出更通用、稳健且具有原则性的世界模型。
Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR
长度无偏序列策略优化:揭示和控制 RLVR 中的响应长度变化
近期,将可验证奖励的强化学习 (Reinforcement Learning with Verifiable Rewards, RLVR) 应用于大语言模型 (LLMs) 和视觉语言模型 (VLMs),在提升复杂任务推理能力方面取得了显著成效。在 RLVR 训练过程中,响应长度的增加常被视为推动推理能力提升的关键因素。然而,不同 RLVR 算法在训练期间,其响应长度的变化模式存在显著差异。为从根本上解释这些差异,本文对主流 RLVR 算法的构成要素进行了深入剖析。我们理论分析了影响响应长度的因素,并通过大量实验验证了该理论。基于这些理论发现,我们提出了长度无偏序列策略优化 (Length-Unbiased Sequence Policy Optimization, LUSPO) 算法。具体而言,我们修正了组序列策略优化 (Group Sequence Policy Optimization, GSPO) 中固有的长度偏差,使其损失函数对响应长度无偏,从而解决了响应长度崩溃问题。我们在数学推理基准测试和多模态推理场景中进行了广泛的实验,LUSPO 均能持续取得更优的性能。实证结果表明,与 GRPO 和 GSPO 等现有方法相比,LUSPO 是一种新颖且先进的优化策略。