OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling
OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling
4D 世界建模领域(旨在联合捕捉空间几何与时间动态)近年来取得显著进展,这主要得益于大规模生成模型和多模态学习的突破。然而,真正通用的 4D 世界模型的发展仍从根本上受限于高质量数据的可获得性。现有数据集和基准往往缺乏支持关键任务(如 4D 几何重建、未来预测和相机控制视频生成 (camera-control video generation))所需的动态复杂性、多领域多样性以及时空标注。为填补这一空白,我们提出 OmniWorld------一个专为 4D 世界建模设计的大规模、多领域、多模态数据集。OmniWorld 包含新采集的 OmniWorld-Game 数据集和多个精选的跨领域公共数据集。与现有合成数据集相比,OmniWorld-Game 提供更丰富的模态覆盖、更大规模且更具真实感的动态交互。基于此数据集,我们建立了具有挑战性的基准,揭示了当前最先进(SOTA)方法在复杂 4D 环境建模中的局限性。此外,在 OmniWorld 上对现有 SOTA 方法进行微调后,4D 重建与视频生成任务均实现显著性能提升,充分验证了 OmniWorld 作为训练与评估资源的强大价值。我们期待 OmniWorld 成为加速通用 4D 世界模型发展的催化剂,最终推动机器对物理世界的整体性理解。
WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research
WebWeaver: 基于动态大纲结构化网络规模证据的开放式深度研究框架
本文针对开放式深度研究 (Open-Ended Deep Research, OEDR) 这一复杂挑战展开研究,该任务要求 AI 智能体将海量网络规模信息综合成具有深度的洞察报告。现有方法存在双重局限:一是静态研究流程将规划与证据获取相分离,二是一次性生成范式容易面临长上下文失效问题(如"中间信息丢失"和幻觉)。为解决这些问题,我们提出 WebWeaver------一个模拟人类研究过程的新型双智能体框架。规划器采用动态循环工作机制,通过迭代式交替进行证据获取与大纲优化,最终生成与证据记忆库相连的、基于来源的完整大纲。随后写作器执行分层检索与生成过程,逐章节构建报告。通过仅从记忆库中针对性检索每个部分所需的证据,该方法有效缓解了长上下文问题。我们的框架在 DeepResearch Bench、DeepConsult 和 DeepResearchGym 等主流 OEDR 基准测试中实现了最先进性能。这些结果验证了以人为中心的迭代方法论,表明自适应规划与聚焦式合成对生成高质量、高可靠性且结构良好的报告具有关键作用。
Scaling Agents via Continual Pre-training
大语言模型 (LLMs) 已发展为能够自主使用工具并进行多步推理以解决复杂问题的智能体系统。然而,基于通用基础模型的后训练方法在智能体任务中始终表现不佳,尤其在开源实现中更为明显。我们识别出其根本原因:缺乏鲁棒的智能体基础模型,迫使模型在后训练过程中需同时学习多样化智能体行为并与专家示范对齐,从而产生根本性的优化冲突。为此,我们首次提出将智能体持续预训练 (Agentic CPT) 纳入深度研究智能体训练流程,以构建强大的智能体基础模型。基于该方法,我们开发了名为 AgentFounder 的深度研究智能体模型。我们在 10 个基准测试上评估 AgentFounder-30B 模型,实现了最先进性能且保持强大工具使用能力,具体表现为:BrowseComp-en 达到 39.9%,BrowseComp-zh 达到 43.3%,HLE 的 Pass@1 达到 31.5%。
ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data
ScaleCUA: 通过跨平台数据实现开源计算机使用智能体的规模化扩展
视觉语言模型 (VLMs) 催生了能够自主操作图形用户界面 (GUIs) 的计算机使用智能体 (CUAs), 展现出巨大潜力, 但其发展受限于缺乏大规模开源计算机使用数据与基础模型。本研究提出 ScaleCUA, 作为推动开源 CUAs 规模化扩展的重要进展。该系统提供涵盖 6 个操作系统与 3 个任务领域的大规模数据集, 通过融合自动化智能体与人类专家的闭环流程构建。基于该规模化数据训练后, ScaleCUA 可实现跨平台无缝操作: 在 WebArena-Lite-v2 和 ScreenSpot-Pro 基准上分别获得 26.6 和 10.7 的显著性能增益, 并创造新的最先进性能 (MMBench-GUI L1-Hard 94.4%, OSWorld-G 60.6%, WebArena-Lite-v2 47.4%)。这些发现彰显了数据驱动规模化方法对通用计算机使用智能体的有效性。我们将公开数据、模型与代码以推动后续研究: github.com/OpenGVLab/S...
Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale
Hala 技术报告:规模化构建以阿拉伯语为中心的指令与翻译模型
我们推出 Hala 系列模型------通过翻译调优流程构建的以阿拉伯语为中心的指令与翻译模型家族。首先将强大的 AR <math xmlns="http://www.w3.org/1998/Math/MathML"> ↔ \leftrightarrow </math>↔EN 教师模型压缩至 FP8 精度(实现 <math xmlns="http://www.w3.org/1998/Math/MathML"> ∼ \sim </math>∼2 <math xmlns="http://www.w3.org/1998/Math/MathML"> × \times </math>× 吞吐量提升且无质量损失),并利用其生成高保真双语监督数据。随后基于该数据对轻量级语言模型 LFM2-1.2B 进行微调,用于将高质量英文指令集翻译为阿拉伯语,最终生成专为指令跟随任务定制的百万级语料库。我们训练了参数量为 350M、700M、1.2B 和 9B 的 Hala 模型,并采用球面线性插值 (slerp) 融合技术来平衡阿拉伯语专业化与基础模型能力。在以阿拉伯语为核心的基准测试中,Hala 在"纳米级" ( <math xmlns="http://www.w3.org/1998/Math/MathML"> ≤ \leq </math>≤2B) 和"小型" (7-9B) 参数规模类别中均取得了最先进的成果,性能超越其基础模型。我们公开模型权重、训练数据、评估方案及实现方法,以加速阿拉伯语自然语言处理领域的研究进展。
FlowRL: Matching Reward Distributions for LLM Reasoning
我们提出了 FlowRL: 一种通过流平衡 (flow balancing) 匹配完整奖励分布的方法,而非在大语言模型 (LLM) 强化学习 (RL) 中单纯最大化奖励。当前先进的推理模型普遍采用奖励最大化方法 (例如 PPO 和 GRPO),这类方法容易过度优化主导奖励信号,同时忽略出现频率较低但有效的推理路径,从而导致多样性下降。相比之下,我们利用可学习的配分函数 (partition function) 将标量奖励转换为归一化的目标分布,并通过最小化策略与目标分布之间的反向 KL 散度来实现优化。我们将这一思想实现为一种流平衡优化方法,以促进多样化探索和可泛化推理轨迹的生成。在数学和代码推理任务上的实验表明:FlowRL 在数学基准测试中相比 GRPO 平均显著提升 <math xmlns="http://www.w3.org/1998/Math/MathML"> 10.0 % 10.0\% </math>10.0%,相比 PPO 平均提升 <math xmlns="http://www.w3.org/1998/Math/MathML"> 5.1 % 5.1\% </math>5.1%,并在代码推理任务中持续表现更优。这些结果凸显了奖励分布匹配是实现大语言模型强化学习中高效探索与多样化推理的关键一步。
WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning
WebSailor-V2:通过合成数据与可扩展强化学习缩小与专有智能体的能力差距
超越人类认知局限是大语言模型 (LLM) 训练的关键前沿领域。诸如 DeepResearch 的专有智能体系统已在 BrowseComp 等极端复杂的信息寻求基准测试中展现出超人类能力,这是此前开源模型未能实现的突破。我们认为其成功源于开源模型缺乏的一种高级推理模式:在广阔信息空间中导航时系统化降低极端不确定性的能力。基于该发现,我们提出 WebSailor------一套完整的训练后方法论,旨在为模型植入这种关键能力。该方法通过结构化采样与信息隐匿生成新型高不确定性任务,采用 RFT 冷启动机制,并结合高效智能体强化学习训练算法 DUPO (复制采样策略优化) 。通过此集成流程,WebSailor 在复杂信息寻求任务中显著优于所有开源智能体,实现了与专有智能体的性能对标,最终缩小了能力差距。
Towards General Agentic Intelligence via Environment Scaling
高级智能体智能是实际应用中部署大语言模型的前提。多样化的现实世界API需要精确且鲁棒的函数调用 (function-calling) 能力,这要求智能体通过在不同环境中的交互来培养这些能力。函数调用能力的覆盖范围与智能体训练环境的多样性密切相关。在本研究中,我们通过扩展环境来推进通用智能体智能的发展,由此产生两个核心挑战:(i) 如何以原则性方法扩展环境;(ii) 如何基于与这些环境交互获得的经验有效训练智能体能力。针对这些问题,我们设计了一个可扩展框架,能够自动构建完全模拟的异构环境,从而系统性地拓宽函数调用场景的空间。我们进一步采用两阶段智能体微调策略:首先赋予智能体基础能力,然后使其专注于特定领域场景。在智能体基准测试tau-bench、tau2-Bench和ACEBench上的大量实验表明,我们训练的AgentScaler模型相比基线模型显著提升了函数调用能力。
WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents
WebResearcher: 释放长周期智能体的无限推理能力
深度研究系统的最新进展展现了AI智能体从外部源自主发现与综合知识的潜力。本文提出WebResearcher创新框架,通过两个核心组件实现此类智能体构建:(1) WebResearcher迭代式深度研究范式,将深度研究重构为马尔可夫决策过程,智能体定期将发现整合至动态演进报告,同时维持专注工作空间,克服了困扰现有单上下文(mono-contextual)方法的上下文窒息与噪声污染问题;(2) WebFrontier可扩展数据合成引擎,通过工具增强的复杂度逐级提升生成高质量训练数据,系统化创建研究任务以弥合被动知识提取与主动知识构建间的鸿沟。值得注意的是,本范式的训练数据即使对传统单上下文方法也能显著增强工具使用能力。此外,该范式通过并行思维机制天然具备扩展性,支持并发多智能体探索以获得更全面的结论。在6项高难度基准测试中的广泛实验表明,WebResearcher实现了state-of-the-art性能,甚至超越前沿专有系统。
ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization
基于大语言模型 (LLM) 的网络智能体在知识密集型任务中表现出色,但在 ReAct 等范式下受限于上下文窗口约束。涉及多实体、复杂关联和高不确定性的查询需要大量搜索周期,这些周期在获得完整解之前就会快速耗尽上下文预算。为突破这一限制,我们提出 ReSum------一种通过周期性上下文摘要实现无限探索的新范式。ReSum 将持续增长的交互历史压缩转换为紧凑的推理状态,在突破上下文限制的同时保留对既往发现的认知。针对范式适配,我们提出 ReSum-GRPO 方法,通过整合 GRPO 与分段轨迹训练及优势广播机制,使智能体适应基于摘要的推理模式。在三个基准测试中对不同规模网络智能体的大规模实验表明,ReSum 相比 ReAct 平均绝对提升 4.5 个百分点,经 ReSum-GRPO 训练后进一步提升达 8.2 个百分点。值得注意的是,仅使用 1K 训练样本时,我们的 WebResummer-30B(基于 WebSailor-30B 训练的 ReSum-GRPO 版本)在 BrowseComp-zh 上达到 33.3% Pass@1,在 BrowseComp-en 上达到 18.3%,性能超越现有开源网络智能体。
Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration
大语言模型 (LLMs) 正日益广泛应用于多样化的现实场景中,每个场景均由用户或组织定制的行为与安全规范 (spec) 所约束。这些规范分为安全规范和行为规范两类,因场景不同而异,并随偏好和需求的变化而动态演变。我们将这一挑战形式化定义为规范对齐问题,重点关注大语言模型从行为和安全角度遵循动态化、场景特定规范的能力。为解决该问题,我们提出了 Align3------一种轻量级方法,该方法采用测试时审慎推理 (TTD) 机制,通过分层反思与修订实现规范边界推理。我们进一步构建了 SpecBench,一个用于评估规范对齐的统一基准,涵盖 5 类场景、103 项规范和 1,500 个提示词。通过对 15 个推理模型和 18 个指令模型开展实验(使用包括 Self-Refine、TPO 和 MoreThink 在内的多种 TTD 方法),我们获得三项关键发现:(i) 测试时审慎推理能有效增强规范对齐;(ii) Align3 以最小开销推进了安全性与有用性的权衡边界;(iii) SpecBench 能有效揭示对齐差距。这些结果表明,测试时审慎推理是应对现实世界规范边界推理的有效策略。