ROOT: Robust Orthogonalized Optimizer for Neural Network Training
大语言模型 (LLM) 的优化仍面临关键挑战,尤其随着模型规模扩大,其对算法不精确性与训练不稳定性的敏感度日益加剧。近期优化器研究通过动量正交化提升了收敛效率,但存在两大鲁棒性缺陷:正交化精度的维度敏感性及对异常值引发噪声的易损性。为解决这些问题,我们提出ROOT (Robust Orthogonalized Optimizer),该优化器通过双重鲁棒机制增强训练稳定性。首先,我们设计了一种维度鲁棒的正交化方案,采用自适应牛顿迭代及针对特定矩阵尺寸定制的细粒度系数,确保在不同架构配置下均能保持精度一致性。其次,我们引入基于近端优化的鲁棒框架,在有效抑制异常值噪声的同时保留关键梯度方向。大量实验证明,ROOT 在鲁棒性方面显著提升,相比 Muon 和 Adam 类优化器,收敛速度更快且最终性能更优,尤其在噪声环境和非凸场景中表现突出。本研究确立了一种新范式,可用于开发鲁棒且精确的优化器,以应对现代大规模模型训练的复杂性。代码将发布于 github.com/huawei-noah...
General Agentic Memory Via Deep Research
记忆对于 AI 智能体至关重要,但广泛采用的静态记忆系统旨在预先构建随时可用的记忆,这不可避免地会导致严重的信息损失。为解决这一局限,我们提出了一种名为 通用智能体记忆 (GAM) 的新框架。GAM 遵循 "即时编译 (JIT) " 原则,专注于在运行时为其服务对象生成优化上下文,同时在离线阶段仅保留简洁而实用的记忆。为此,GAM 采用双重设计,包含以下组件:1) 记忆器 (Memorizer) ,利用轻量级记忆提取关键历史信息,同时在通用页面存储中维护完整历史记录;2) 研究者 (Researcher),基于预构建的记忆,从页面存储中检索并集成有用信息以响应在线请求。这种设计使 GAM 能够有效利用前沿大语言模型 (LLMs) 的智能体能力和推理时扩展性,同时通过强化学习实现端到端性能优化。在实验研究中,我们证明 GAM 在各种记忆驱动型任务完成场景中,相比现有记忆系统,取得了显著提升。
GigaEvo: An Open Source Optimization Framework Powered By LLMs And Evolution Algorithms
GigaEvo:一个由大语言模型和进化算法驱动的开源优化框架
大语言模型引导的进化计算领域近期取得重要进展,特别是 AlphaEvolve (Novikov 等人, 2025; Georgiev 等人, 2025) 在发现新颖数学构造和解决复杂优化问题方面展现出卓越成效。然而,现有公开文献中的高层描述未明确说明具体实现细节,这阻碍了研究的可复现性与深入探索。本报告提出 GigaEvo------一个可扩展的开源框架,支持研究人员对受 AlphaEvolve 启发的混合大语言模型-进化方法进行系统研究与实践。该框架采用模块化设计,核心组件包括:MAP-Elites 质量-多样性算法、基于异步有向无环图的评估流水线、支持洞见生成与双向谱系追踪的大语言模型驱动变异算子,以及灵活的多岛进化策略。为验证实现的可复现性,我们使用 AlphaEvolve 论文中的三类典型难题对 GigaEvo 进行评估:Heilbronn 三角形布局、正方形内圆填充问题和高维接吻数问题。本框架强调模块化架构、并行计算与实验便捷性,通过声明式配置支持快速原型开发。我们详细阐述了系统架构设计、关键技术决策与实验方法,旨在推动大语言模型驱动进化算法的持续研究。GigaEvo 框架及完整实验代码已开源:github.com/AIRI-Instit...
SAM 3: Segment Anything with Concepts
我们提出分割万物模型 (SAM) 3,这是一个统一模型,能够根据概念提示检测、分割并跟踪图像和视频中的对象。概念提示定义为短名词短语(如"黄色校车")、图像示例或两者组合。可提示概念分割 (PCS) 接收这些提示,并输出所有匹配对象实例的分割掩码和唯一标识。为推进 PCS 研究,我们构建了可扩展数据引擎,生成包含 400 万独特概念标签的高质量数据集,涵盖图像和视频中的难负样本。该模型由共享单一骨干网络的图像级检测器和基于记忆的视频跟踪器组成,通过存在头解耦识别与定位模块,显著提升检测精度。SAM 3 在图像与视频 PCS 任务中实现精度翻倍,并优化了先前 SAM 模型在视觉分割任务中的性能。我们开源了 SAM 3 模型及新构建的基于概念的分割万物 (SA-Co) 基准,用于可提示概念分割研究。
Latent Collaboration in Multi-Agent Systems
多智能体系统 (MAS) 将大语言模型 (LLMs) 从独立的单模型推理扩展至协同的系统级智能。现有 LLM 智能体通常依赖基于文本的中介进行推理与通信,而本研究进一步实现了模型在连续潜在空间中的直接协作。我们提出 LatentMAS,一种端到端的无需训练框架,支持 LLM 智能体间的纯潜在协作。在 LatentMAS 中,各智能体首先通过最后一层隐藏嵌入执行自回归潜在思维生成;随后,一个共享潜在工作记忆负责保存并传递各智能体的内部表示,确保信息无损交换。理论分析表明,相较于基础的基于文本 MAS,LatentMAS 以显著更低的复杂度实现了更强的表达能力与无损信息保留。此外,在数学科学推理、常识理解和代码生成等 9 个综合基准测试中,实证评估显示 LatentMAS 持续优于强单模型及基于文本的 MAS 基线,准确率最高提升 14.6%,输出 Token 用量减少 70.8%-83.7%,端到端推理速度加快 4-4.3 倍。这些结果证明,本潜在协作框架在无需额外训练的前提下,不仅提升了系统级推理质量,还带来了显著的效率增益。代码与数据已完全开源:github.com/Gen-Verse/L...
GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization
当前智能体视觉推理的研究虽能实现深度多模态理解,但主要聚焦于图像处理工具,导致在构建更通用智能体模型方面存在不足。本文重新探讨地理定位任务,该任务不仅需要精细的视觉基础能力,还需在推理过程中借助网络搜索来验证或优化假设。鉴于现有地理定位基准无法满足高分辨率图像需求及深度智能体推理的定位挑战,我们构建了GeoBench基准,其中包含全球各地的照片、全景图以及不同城市的卫星图像子集,以严格评估智能体的地理定位能力。同时,我们提出GeoVista模型,它能将工具调用无缝整合到推理回路中,包括用于放大感兴趣区域的图像缩放工具和用于检索相关网络信息的搜索工具。我们为其开发了完整训练流程:首先通过冷启动监督微调 (SFT) 阶段学习推理模式与工具使用先验,再通过强化学习 (RL) 阶段进一步提升推理能力。通过采用分层奖励机制有效利用多级地理信息,显著提升了整体定位性能。实验结果表明,GeoVista在地理定位任务上显著优于其他开源智能体模型,且在多数指标上达到与闭源模型(如Gemini-2.5-flash和GPT-5)相当的水平。
AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning
人类通过在不同动态、观察和奖励结构的世界中学习底层规则,自然地适应多样化环境。相比之下,现有智能体通常通过在单一领域内自我演化来展示改进,隐式地假设了固定的环境分布。跨环境学习在很大程度上仍未得到充分评估:既缺乏可控、异构环境的标准集合,也没有统一的方法来表征智能体如何学习。我们通过两个步骤来解决这些不足。首先,我们提出AutoEnv,一个自动化框架,将环境视为可因子化的转移、观察和奖励分布,实现低成本(平均4.12美元)生成异构世界。利用AutoEnv,我们构建了AutoEnv-36数据集,包含36个环境和358个已验证关卡,在该数据集上,七个语言模型实现了12-49%的归一化奖励,证明了AutoEnv-36的高挑战难度。其次,我们将智能体学习形式化描述为一个以组件为中心的过程,该过程由选择、优化和评估三个阶段驱动,并应用于可改进的智能体组件。基于此形式化,我们设计了八种学习方法,并在AutoEnv-36上对其进行了评估。实证结果表明,任何单一学习方法的性能增益随环境数量增加而迅速下降,揭示出固定学习方法无法在异构环境中扩展。学习方法的自适应环境选择能显著提升性能,但随着方法空间的扩大,表现出收益递减效应。这些结果凸显了智能体学习对于可扩展跨环境泛化的必要性及其当前局限,并将AutoEnv和AutoEnv-36作为研究跨环境智能体学习的测试平台。代码可在github.com/FoundationA...
OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe
OpenMMReasoner:基于开放通用方案推动多模态推理前沿发展
大语言推理模型的最新进展,引发了将其能力扩展至多模态领域的广泛关注。然而,尽管视觉推理已取得显著突破,但缺乏透明且可复现的数据构建与训练策略,仍是制约规模化研究的主要障碍。本研究提出OpenMMReasoner------一个完全透明的两阶段多模态推理方案,涵盖监督微调(SFT)和强化学习(RL)两个阶段。在SFT阶段,我们构建了包含87.4万样本的冷启动数据集,并通过严格的分步验证为推理能力奠定坚实基础。后续RL阶段利用跨多个领域的7.4万样本数据集,进一步强化并稳定模型能力,从而实现更鲁棒高效的学习过程。大量实验表明,本训练方案不仅显著超越强基线模型,更揭示了数据质量与训练设计对多模态推理性能的决定性作用。值得注意的是,在九大多模态推理基准测试中,本方法相较Qwen2.5-VL-7B-Instruct基线实现了11.6%的性能提升,为未来大规模多模态推理研究提供了坚实实证基础。我们已在github.com/EvolvingLMM...
Unveiling Intrinsic Dimension of Texts: from Academic Abstract to Creative Story
内在维度 (ID) 是现代大语言模型分析中的重要工具,可用于研究训练动态、缩放规律和数据集结构,但其文本层面的决定因素尚待深入探索。我们通过交叉编码器分析、语言特征和稀疏自编码器 (SAEs) ,首次开展了基于可解释文本属性的 ID 系统性研究。本研究确立了三个关键发现:第一,ID 与基于熵的指标具有互补性------在控制文本长度后,两者无相关性,ID 捕获的是独立于预测质量的几何复杂度;第二,ID 呈现稳定的体裁分层现象------在所有测试模型中,科学文本显示低 ID 值 (~8) ,百科全书类内容为中等 ID 值 (~9) ,而创意写作与观点类文本则呈现高 ID 值 (~10.5) ,这表明当代大语言模型将科学文本视为"表征简单"的类别,而小说类文本需要更多表征自由度;第三,通过 SAEs 我们识别出因果特征:科学信号(正式语气、报告模板、统计数据)会降低 ID ,而人性化信号(个性化表达、情感元素、叙事结构)则会提升 ID 。定向控制实验证实了这些影响的因果性。因此,对当代模型而言,科学写作相对"易于处理",而小说、观点性文本及情感内容则增加了表征复杂度。我们的多维度分析为 ID 的合理应用及基于 ID 结论的可靠解读提供了实践指导。
Multimodal Evaluation of Russian-language Architectures
多模态大语言模型 (MLLMs) 是当前研究关注的焦点,在规模和能力方面均展现出快速进步,然而其智能水平、局限性及潜在风险尚未得到充分理解。为了解决这些问题,尤其是在俄语语境下,鉴于目前尚无多模态基准,我们引入了 Mera Multi------一个面向俄语模型的开放多模态评估框架。该基准采用指令驱动设计,涵盖默认的文本、图像、音频和视频模态,包含 18 个全新构建的评估任务,面向通用模型及模态特定架构(如图像到文本、视频到文本和音频到文本)。我们的贡献包括:(i) 一套通用多模态能力分类体系;(ii) 18 个从零开始构建的数据集,注重俄语文化及语言特性,并配有统一提示词和评估指标;(iii) 闭源与开源模型的基线性能结果;(iv) 一套防止基准泄漏的防护方法,包括水印技术和私有数据集的许可协议。尽管当前研究聚焦于俄语,但所提出的基准为在类型学多样的语言(特别是斯拉夫语族)中构建多模态评估体系提供了可复现的方法论。
DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation
像素扩散的目标是以端到端方式直接在像素空间生成图像。该方法规避了 VAE 在二阶段潜在扩散中的局限性,从而具备更高的模型容量。现有像素扩散模型因通常在单一扩散 Transformer (DiT) 中同时建模高频信号与低频语义,导致训练和推理速度缓慢。为构建更高效的像素扩散范式,我们提出频率解耦像素扩散框架。基于解耦高频与低频分量生成的思路,我们采用轻量级像素解码器,在 DiT 语义引导下生成高频细节。这使得 DiT 能够专注于低频语义建模。此外,我们引入频率感知流匹配损失,在强化视觉显著频率分量的同时抑制非显著分量。大量实验证明,DeCo 在像素扩散模型中取得最优性能,在 ImageNet 数据集上获得 1.62 (256×256) 和 2.22 (512×512) 的 FID 指标,显著缩小了与潜在扩散方法的性能差距。我们的预训练文生图模型在 GenEval 基准测试的系统级比较中,更以 0.86 的综合得分保持领先。代码已开源:github.com/Zehong-Ma/D...
Computer-Use Agents as Judges for Generative User Interface
计算机智能体 (CUA) 正日益擅长通过图形用户界面 (GUI) 自主操作数字环境。然而,当前大多数 GUI 仍主要面向人类设计(优先考虑美观性和可用性),迫使智能体采用许多对高效任务执行非必要的人类化操作模式。与此同时,编码语言模型 (Coder) 的快速发展正在革新自动 GUI 设计范式。这引出一个核心问题:能否以 CUA 作为评判者,辅助 Coder 实现自动 GUI 设计?为探究此问题,我们推出 AUI-Gym 基准测试集,涵盖 52 个跨领域应用的自动 GUI 开发任务。基于语言模型,我们合成了 1560 个模拟真实场景的任务。为确保任务可靠性,我们还开发了验证模块,通过编程验证每个任务在对应环境中的可执行性。在此基础上,我们提出 Coder-CUA 协同框架:Coder 担任设计者角色,负责生成和迭代优化网站界面;CUA 则作为评判者,评估功能实现质量并指导设计改进。评估标准不依赖视觉表现,而是基于任务可解决性与 CUA 导航成功率。为将 CUA 反馈转化为有效指导,我们设计了 CUA 仪表板,将多步导航轨迹凝练为直观的视觉摘要,为迭代设计提供可解释的优化指引。通过让智能体同时承担设计者与评判者角色,本框架将界面设计推向更符合智能体原生特性的高效可靠范式。本研究推动智能体从被动使用向数字环境主动参与迈出关键一步。代码与数据集详见 github.com/showlab/AUI...
DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research
DR Tulu:基于演化评分标准的强化学习在深度研究中的应用
深度研究模型通过多步研究过程生成长篇且引用充分的答案。然而,现有大多数开放深度研究模型采用可验证奖励强化学习 (RLVR) 在易于验证的短篇问答任务上进行训练,这种方法无法扩展到实际的长篇研究任务。为此,我们提出了基于演化评分标准的强化学习 (RLER) 方法,通过构建与策略模型在训练过程中协同演化的评分标准,使评分体系能够整合模型新探索的信息,并提供具有区分度的同策略反馈。基于RLER方法,我们开发了深度研究Tulu模型 (DR Tulu-8B),这是首个专门针对开放式长篇深度研究任务训练的开放模型。在科学、医疗保健及通用领域的四个长篇深度研究基准测试中,DR Tulu模型显著优于现有开放深度研究模型,其性能达到甚至超越了专有深度研究系统,同时具有更小的模型尺寸和更低的单次查询成本。为促进后续研究,我们完整公开了所有数据、模型和代码,包括新开发的基于MCP的深度研究系统智能体基础设施。
MedSAM3: Delving into Segment Anything with Medical Concepts
医学图像分割是生物医学发现的基础技术。现有方法普遍存在泛化能力不足的问题,且针对新临床应用需进行大量耗时的人工标注。本文提出MedSAM-3模型------一种支持文本提示的医学图像与视频分割模型。通过对Segment Anything Model (SAM) 3架构在医学图像及对应语义概念标签上进行微调,MedSAM-3实现了医学可提示概念分割 (PCS) 功能,能够基于开放词汇文本描述精确定位解剖结构,而不仅依赖几何提示信息。我们还开发了MedSAM-3智能体 (Agent) 框架,通过集成多模态大语言模型 (MLLMs) ,在智能体参与循环的工作流程中实现复杂推理与迭代优化。涵盖X射线、磁共振成像 (MRI) 、超声、计算机断层扫描 (CT) 及视频等多种医学成像模态的综合实验表明,本方法性能显著优于现有专业模型与基础模型。相关代码与模型将在github.com/Joey-S-Liu/...
Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning
Agent0-VL: 探索用于工具集成视觉语言推理的自进化智能体
视觉语言智能体在各种多模态推理任务中取得了显著进展,但其学习过程仍受限于人类标注监督的约束。近期出现的自奖励方法尝试通过让模型充当自身评判者或奖励提供者来突破这一限制。然而,纯文本形式的自我评估难以有效验证复杂的视觉推理步骤,且常出现评估幻觉问题。为解决这些挑战,受工具集成推理领域最新进展的启发,我们提出Agent0-VL------一种通过工具集成推理实现持续自我提升的自进化视觉语言智能体。Agent0-VL不仅将工具运用融入推理过程,还将其扩展至自我评估与自我修复环节,使模型能够通过证据驱动的分析实现推理过程的内省、验证与优化。该架构在单一的大视觉语言模型 (LVLM) 中整合了两个协同工作的角色:执行多轮工具集成推理的求解器 (Solver),以及通过工具化批判生成结构化反馈与细粒度自奖励的验证器 (Verifier)。这些角色通过自进化推理循环 (Self-Evolving Reasoning Cycle) 相互协作,其中基于工具的验证机制与强化学习共同对齐推理与评估的分布,确保稳定的自我改进。通过这种零外部奖励的进化机制,Agent0-VL在无需任何人工标注或外部奖励模型的情况下,实现了推理行为与验证行为的自对齐,达成持续自我优化。在几何问题求解和视觉科学分析领域的实验表明,Agent0-VL相较基础模型实现了12.5%的性能提升。代码已开源:github.com/aiming-lab/...