Scaling Latent Reasoning via Looped Language Models
现代大语言模型主要通过显式文本生成(如思维链 (CoT))来训练其"思考"能力,但这将推理过程推迟到训练后阶段,且未能充分利用预训练数据。我们提出并开源了 Ouro(取名自递归的 Ouroboros),这是一个预训练的循环语言模型 (LoopLM) 系列,它通过以下方式将推理构建到预训练阶段:(i) 在潜在空间中进行迭代计算,(ii) 采用熵正则化目标以学习深度分配,以及 (iii) 扩展到 7.7T token 的规模。Ouro 1.4B 和 2.6B 模型在广泛基准测试中表现出卓越性能,与高达 12B 参数的当前最优 (SOTA) 大语言模型结果相当。通过受控实验,我们证明这一优势并非来自知识容量的增加,而是源于更强大的知识操纵能力。我们还表明,与显式 CoT 相比,LoopLM 生成的推理轨迹与最终输出更一致。我们希望这些结果能凸显 LoopLM 作为推理时代一个新扩展方向的潜力。模型可在 ouro-llm.github.io 获取。
Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations
人类通过多感官协同作用学习抽象概念,一旦形成,这些表征通常可以从单一模态中提取。受此原理启发,我们提出了 Concerto,这是一种针对人类空间认知概念学习的简约模拟,它结合了 3D 模态内自蒸馏与 2D-3D 跨模态联合嵌入。尽管设计简洁,Concerto 能够学习到更连贯且信息更丰富的空间特征,零样本可视化结果验证了这一点。在 3D 场景感知的线性探测任务中,Concerto 的性能分别优于独立的 SOTA 2D 和 3D 自监督模型 14.2% 和 4.8%,同时也优于它们的特征拼接。经过完整微调后,Concerto 在多个场景理解基准测试中创下了新的 SOTA 结果(例如,在 ScanNet 上达到 80.7% mIoU)。我们还提出了一个专为基于视频的点云空间理解定制的 Concerto 变体,以及一个将 Concerto 表征线性投影到 CLIP 语言空间的翻译器,从而支持开放世界感知。这些结果表明,Concerto 能够产生具有卓越细粒度几何和语义一致性的空间表征。
ReCode: Unify Plan and Action for Universal Granularity Control
现实任务需要在不同粒度级别进行决策,人类通过统一的认知表征在此方面表现卓越------其中规划本质上被视为一种高层级的行动形式。然而,当前基于大语言模型 (LLM) 的智能体缺乏跨粒度流畅决策的关键能力。这一局限源于现有范式对高层规划与底层行动进行严格区分,从而削弱了动态适应性并限制了泛化能力。我们提出 ReCode (递归代码生成) 这一新范式,通过将规划与行动统一在单一代码表征中来解决此问题。在该表征中,ReCode 将高层计划视为抽象占位函数,智能体随后递归地将这些函数分解为更细粒度的子函数,直至抵达原始动作层。这种递归机制消融了规划与行动间的严格界限,使得智能体能够动态调控决策粒度。此外,递归结构会内在地生成丰富的多粒度训练数据,让模型能够学习层级化决策过程。广泛实验表明,ReCode 在推理性能上显著超越先进基线方法,并在训练中表现出卓越的数据效率,证实了我们的核心观点:通过递归代码生成统一规划与行动是实现通用粒度控制的高效路径。代码发布于 github.com/FoundationA...
InteractComp: Evaluating Search Agents With Ambiguous Queries
语言智能体在网络搜索和信息检索领域展现出巨大潜力。然而,现有搜索代理均假设用户查询是完整且明确的,这一假设与实际情况存在偏差------用户往往从模糊的初始查询开始,需要通过交互过程逐步澄清需求。目前大多数搜索代理缺乏交互机制,且现有评估基准无法有效检验这种交互能力。为填补这一空白,我们提出InteractComp基准,专门用于评估搜索代理在搜索过程中识别查询模糊性并主动通过交互消歧的能力。基于"易于验证、交互消歧"原则,我们采用目标-干扰物方法构建了涵盖9个领域的210个专家精编问题,这些问题具有真实的模糊性,必须通过交互才能解决。对17个模型的评估结果令人震惊:最佳模型准确率仅为13.73%,而在完整上下文条件下可达71.50%,这表明问题根源在于系统性过度自信而非推理能力不足。强制交互策略带来了显著性能提升,证明了现有策略未能激发的潜在能力。纵向分析表明,尽管搜索性能在15个月内提升七倍,但交互能力始终停滞不前,暴露出关键发展盲点。这种能力停滞与搜索任务固有的即时反馈特性,使得InteractComp成为评估和训练搜索代理交互能力的宝贵资源。代码已发布于github.com/FoundationA...
DeepAgent: A General Reasoning Agent with Scalable Toolsets
大型推理模型已展现出强大的问题解决能力,但现实任务往往需要借助外部工具并进行长程交互。现有智能体框架通常遵循预定义工作流,这限制了任务的自主性和全局性完成。本文提出DeepAgent------一种端到端深度推理智能体,能在统一连贯的推理过程中实现自主思考、工具发现与动作执行。针对长程交互的挑战(特别是多重工具调用引发的上下文长度激增及交互历史累积),我们引入了自主记忆折叠机制,将历史交互压缩为结构化的情景记忆、工作记忆与工具记忆,在减少错误积累的同时保留关键信息。为高效稳定地训练通用工具使用能力,我们开发了端到端强化学习策略ToolPO,该策略利用大语言模型模拟API,并通过工具调用优势归因机制为工具调用token分配细粒度信用值。在八大基准测试(包括通用工具使用任务ToolBench、API-Bank、TMDB、Spotify、ToolHop及下游应用ALFWorld、WebShop、GAIA、HLE)上的实验表明,DeepAgent在标注工具和开放集工具检索场景中性能始终优于基线方法。本研究为开发适用于现实场景的通用型智能体迈出了重要一步。代码与演示详见:github.com/RUC-NLPIR/D...
JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence
神经代码智能的研究范围正迅速从基于文本的源代码扩展到程序生成的丰富视觉输出。视觉维度对于高级应用(如灵活内容生成和程序驱动的精确可视化编辑)至关重要。然而,高质量多模态代码数据的稀缺阻碍了进展,这一瓶颈主要源于数据合成和质量评估的挑战。为解决这些问题,我们从数据和建模角度贡献了以下工作:首先,我们开发了一套完整的合成工具包,利用不同数据模态间的双向协同效应,高效生成大规模高质量语料库,覆盖从标准图表到复杂交互式网页UI及代码驱动动画等多种类型。基于该工具包,我们构建了JanusCode-800K------目前最大的多模态代码语料库。借此,我们训练了JanusCoder和JanusCoderV模型,建立起一个视觉-程序化接口,能够根据文本指令、视觉输入或二者组合生成代码。我们的统一模型突破了现有方法为孤立任务构建专用模型的局限。在面向文本和视觉的编码任务上进行大量实验表明,JanusCoder系列性能卓越,其7B至14B规模的模型表现接近甚至超越商业模型。此外,深入分析揭示了程序化逻辑与视觉表达协调统一的关键机制。我们的代码与模型检查点已发布于github.com/InternLM/Ja...
The End of Manual Decoding: Towards Truly End-to-End Language Models
大语言模型的"端到端"标签实为误称。实践中,它们依赖不可微分的解码过程,需要繁琐地手动调整温度 (temperature) 和 top-p 等超参数。本文提出 AutoDeco,一种通过学会控制自身解码策略实现真正"端到端"生成的新型架构。我们在标准 Transformer 上添加轻量级头模块,这些模块在每一步动态预测上下文相关的温度与 top-p 值,同时输出下一个 token 的 logits。该方法将解码转化为参数化的 token 级过程,使模型能在单次前向传播中自我调整采样策略。 通过在八个基准测试上的广泛实验,我们证明 AutoDeco 不仅显著优于默认解码策略,更达到了与通过"测试集过拟合"获得的 oracle 调优基线相当的性能------后者是任何静态方法的实际上限。重要的是,我们发现模型涌现出基于指令的解码控制能力:模型学会解析自然语言指令 (如"低随机性生成"),并逐 token 调整预测的温度与 top-p 值,这为可控交互式大语言模型解码开辟了新范式。
Tongyi DeepResearch Technical Report
我们推出通义深度研究,这是一个面向长周期深度信息检索研究任务专门设计的智能体大语言模型。为激发自主深度研究能力,该模型通过端到端训练框架开发,融合智能体中期训练与后期训练,实现了跨复杂任务场景的可扩展推理与信息探索。我们设计了高度可扩展的全自动数据合成流水线,无需依赖昂贵的人工标注,并能支持所有训练阶段。通过为每个阶段构建定制化环境,系统确保了全流程交互的稳定性与一致性。通义深度研究模型总参数量达305亿,每个token仅激活33亿参数,在多项智能体深度研究基准测试中取得了最先进的性能表现,包括Humanity's Last Exam、BrowseComp、BrowseComp-ZH、WebWalkerQA、xbench-DeepSearch、FRAMES以及xbench-DeepSearch-2510。我们已开源模型、框架及完整解决方案,以促进社区发展。
Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning
图像推理方法(尤其是"用图像思考")的最新进展,在多模态大语言模型 (MLLMs) 中取得了显著成功;然而,这种动态推理范式尚未延伸至视频推理任务。本文提出 Video-Thinker,通过自主利用模型固有的"定位" (grounding) 和"字幕" (captioning) 能力,在推理过程中生成推理提示,从而赋能 MLLMs 实现视频思考。为激发此能力,我们构建了 Video-Thinker-10K 数据集,其中包含思维链推理序列中的自主工具使用案例。训练策略首先采用监督微调 (SFT) 学习推理格式,再通过组相对策略优化 (GRPO) 强化推理能力。该方法使 MLLMs 能自主处理视频推理中的定位和字幕任务,无需构建和调用外部工具。大量实验表明,Video-Thinker 在领域内任务及挑战性领域外视频推理基准(包括 Video-Holmes、CG-Bench-Reasoning 和 VRBench)上均实现显著性能增益。我们的 Video-Thinker-7B 大幅优于 Video-R1 等现有基线模型,在 7B 规模 MLLMs 中达到了最先进性能。
Emu3.5: Native Multimodal Models are World Learners
我们推出 Emu3.5------一个大规模多模态世界模型,能够原生预测视觉与语言模态的下一状态。该模型基于包含超过10万亿Token的视觉-语言交错数据集进行端到端预训练,采用统一的下一Token预测目标,数据集主要源自互联网视频的连续帧及其转录文本。Emu3.5可原生处理交错式视觉-语言输入,并生成对应的交错式多模态输出。通过大规模强化学习微调,进一步增强了模型的多模态推理与生成能力。为提升推理效率,我们提出离散扩散适应(DiDA)方法,将逐Token解码转化为双向并行预测,在保持性能不变的前提下实现单图像推理速度提升约20倍。
Emu3.5展现出卓越的原生多模态能力,包括:长序列视觉-语言生成、任意模态到图像(X2I)生成、以及复杂富文本图像生成。同时具备强大的世界建模泛化能力,可在多样化场景与任务中实现时空一致的世界探索和开放世界具身智能控制。性能对比显示,Emu3.5在图像生成与编辑任务上达到与Gemini 2.5 Flash Image(Nano Banana)相当的水平,并在交错生成基准测试中取得更优结果。我们已在github.com/baaivision/...
AgentFold: Long-Horizon Web Agents with Proactive Context Management
基于大语言模型的网络智能体在信息检索领域展现出巨大潜力,但其在长程任务中的有效性受限于上下文管理的基本权衡。主流基于ReAct的智能体因累积噪声原始历史而面临上下文过载,而固定式总结完整历史的方法则存在关键细节不可逆丢失的风险。针对这些问题,我们提出AgentFold,一种以主动上下文管理为核心的新型智能体范式,其灵感源自人类回溯性整合的认知过程。AgentFold将上下文视为可主动塑造的动态认知工作区,而非被动填充的日志。在每个步骤中,它学习执行"折叠"操作,该操作在多个尺度上管理历史轨迹:既可执行细粒度压缩以保留关键细节,也可进行深度整合以抽象化多步骤子任务。在主流基准测试中的结果显著:仅通过简单监督微调(无需持续预训练或强化学习),我们的AgentFold-30B-A3B智能体在BrowseComp上达到36.2%,在BrowseComp-ZH上达到47.3%。值得注意的是,该性能不仅超越或持平规模大得多的开源模型(如DeepSeek-V3.1-671B-A37B),还超越了领先的专有智能体(如OpenAI的o4-mini)。
A Survey of Data Agents: Emerging Paradigm or Overstated Hype?
大语言模型 (LLM) 的快速发展催生了数据智能体 (Data Agent) ------ 旨在协调数据与人工智能 (AI) 生态系统以处理复杂数据任务的自主系统。然而,"数据智能体"这一术语目前存在定义模糊和应用不一致的问题,常将简单的查询响应程序与复杂的自主架构相混淆。这种术语模糊性导致用户期望错配、责任界定困难以及行业发展障碍。受 SAE J3016 驾驶自动化标准启发,本综述首次提出数据智能体的系统化分层分类法,包含六个级别,描述并追踪自主性从手动操作 (L0) 到生成式全自主数据智能体 (L5) 愿景的渐进演变,从而明确能力边界与责任分配。基于此框架,我们按自主性递增顺序对现有研究进行结构化综述,涵盖专注于数据管理、数据准备和数据分析的专用数据智能体,以及面向高自主性多功能综合系统的新兴研究。我们进一步分析了推进数据智能体发展的关键演进节点与技术空白,特别关注当前从 L2 向 L3 的演进阶段------此时数据智能体正从流程执行转向自主协调。最后,以展望性路线图作为总结,前瞻主动式生成数据智能体的发展前景。
FARMER: Flow AutoRegressive Transformer over Pixels
直接建模原始数据分布的显式似然是机器学习领域的核心课题,自回归建模已通过大语言模型实现了规模化成功应用。然而,视觉像素数据的连续自回归建模面临序列极长和高维空间的挑战。本文提出FARMER------一种新颖的端到端生成框架,将归一化流(NF)与自回归(AR)模型相结合,直接从原始像素实现易处理似然估计和高质量图像合成。FARMER采用可逆自回归流将图像转换为潜在序列,其分布由自回归模型隐式地建模。针对像素级建模中的冗余和复杂度问题,我们提出自监督降维方法,将NF潜在通道划分为信息组和冗余组,从而实现更高效的自回归建模。此外,我们设计了一步蒸馏方法以显著加速推理速度,并引入基于重采样的无分类器引导算法来提升图像生成质量。大量实验表明,FARMER在提供精确似然估计和可扩展训练的同时,与现有基于像素的生成模型相比展现出具有竞争力的性能。
RoboOmni: Proactive Robot Manipulation in Omni-modal Context
多模态大语言模型 (MLLMs) 的最新进展,显著推动了面向机器人操作的视觉-语言-动作 (VLA) 模型的快速发展。尽管现有方法在许多场景中表现有效,但它们主要依赖显式指令;而在实际人机交互过程中,人类很少直接给出此类指令。要实现高效协作,机器人需要具备主动推断用户意图的能力。为此,本研究提出跨模态情境指令这一新型范式,其核心在于从口语对话、环境声响及视觉线索中推导意图,而非依赖显式命令。针对这一范式,我们开发了 RoboOmni------一个基于端到端全模态大语言模型的感知-思考-对话-执行框架,该框架统一整合了意图识别、交互确认与动作执行功能。RoboOmni 通过时空维度融合听觉与视觉信号,实现鲁棒的意图识别,并支持直接语音交互。为解决机器人操作领域主动意图识别训练数据匮乏的问题,我们构建了 OmniAction 数据集,包含 14 万条交互片段、5000 余名说话者、2400 种事件音效、640 种背景环境以及六类情境指令。仿真与实物环境实验表明,RoboOmni 在任务成功率、推理速度、意图识别准确率和主动辅助能力上均优于基于文本及自动语音识别 (ASR) 的基线方法。
Kimi Linear: An Expressive, Efficient Attention Architecture
我们介绍了 Kimi Linear,一种混合线性注意力架构,首次在各种场景的公平比较下------包括短上下文、长上下文和强化学习 (RL) 扩展机制------超越完整注意力。其核心是 Kimi Delta Attention (KDA),一种表达力强的线性注意力模块,通过更细粒度的门控机制扩展了 Gated DeltaNet,从而更有效地利用有限状态 RNN 内存。我们定制的分块算法通过 Diagonal-Plus-Low-Rank (DPLR) 转移矩阵的专门变体实现了高硬件效率,与通用 DPLR 公式相比显著减少了计算量,同时更符合经典的 delta 规则。
我们基于 KDA 和 Multi-Head Latent Attention (MLA) 的分层混合,预训练了一个具有 30 亿激活参数和 480 亿总参数的 Kimi Linear 模型。实验表明,在相同训练方案下,Kimi Linear 在所有评估任务中均以显著优势优于完整 MLA,同时将 KV 缓存使用量减少高达 75%,并在 100 万上下文下实现高达 6 倍的解码吞吐量。这些结果证明,Kimi Linear 可以作为完整注意力架构的即插即用替代方案,具有卓越的性能和效率,适用于输入和输出长度更长的任务。
为支持进一步研究,我们开源了 KDA 内核和 vLLM 实现,并发布了预训练和指令调优的模型检查点。
Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents
Game-TARS:面向可扩展通用多模态游戏智能体的预训练基础模型
我们提出了Game-TARS,一种通用游戏智能体,采用统一且可扩展的动作空间进行训练,该空间基于与人类操作习惯一致的本地键盘-鼠标输入。不同于基于API或图形用户界面的方法,此范式支持在异构领域(包括操作系统、网页和模拟游戏)中进行大规模持续预训练。Game-TARS在超过5000亿个token的多样化交互轨迹和多模态数据上完成了预训练。核心技术包括用于减少因果混淆的衰减持续损失函数,以及平衡推理深度与计算成本的高效稀疏思维策略。实验结果显示,Game-TARS在开放世界《我的世界》任务中的成功率达到了先前最优模型的约2倍,在未接触过的网页3D游戏中表现接近人类新手水平,并在第一人称射击游戏基准测试中超越了GPT-5、Gemini-2.5-Pro和Claude-4-Sonnet。训练阶段与测试阶段的扩展性实验表明,当扩展到跨游戏和多模态数据时,统一动作空间能持续带来性能提升。我们的研究成果证明,将简洁可扩展的动作表示与大规模预训练相结合,为开发具有广泛计算机操作能力的通用智能体开辟了可行路径。
ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization
自动形式化 (Autoformalization) 旨在将自然语言描述的数学内容转化为机器可验证的形式化语句,这对于利用形式化数学推理解决自然语言表述的数学问题至关重要。尽管大语言模型 (LLM) 能够生成语法正确的形式化语句,但往往难以保持原始问题的语义意图。这种局限源于现有 LLM 方法将自动形式化简单视为翻译任务,缺乏人类专家天然具备的自我反思与迭代优化机制。为解决这些问题,我们提出 ReForm------一种反思式自动形式化方法,通过将语义一致性评估深度整合至形式化过程,使模型能够迭代生成形式化语句、评估语义保真度,并通过渐进优化实现自我纠错。为有效训练该反思模型,我们提出前瞻性有界序列优化 (Prospective Bounded Sequence Optimization, PBSO) 方法,通过在序列不同位置施加差异化奖励机制,确保模型同步提升自动形式化精度与语义验证能力,避免流于表面的评判损害反思效能。在四个自动形式化基准测试上的实验表明,ReForm 相较最强基线平均提升 22.6%。为进一步确保评估可靠性,我们构建了 ConsistencyCheck 基准数据集,包含 859 条专家标注条目。该基准不仅验证了 LLM 作为评判者的可行性,更揭示出自动形式化本身具有极高难度:即便人类专家在高达 38.5% 的案例中仍会出现语义错误。