每周AI论文速递(251110-251114)

Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

Lumine: 构建3D开放世界中通用AI智能体的开放方案

我们推出Lumine,这是首个用于开发通用AI智能体的开放方案,能够在挑战性3D开放世界环境中实时完成长达数小时的复杂任务。Lumine采用类人交互范式,以视觉语言模型驱动,端到端地统一感知、推理与行动。它以5Hz处理原始像素,生成精确的30Hz键鼠动作,并仅在必要时自适应触发推理。在《原神》中训练后,Lumine成功通关整个五小时蒙德主线剧情,效率达到人类水平,并能遵循自然语言指令,在3D开放世界探索和2D图形界面操作中广泛执行收集、战斗、解谜及NPC交互等任务。除领域内性能外,Lumine还展现出强大的零样本跨游戏泛化能力:无需微调,即可在《鸣潮》中完成100分钟任务,并在《崩坏:星穹铁道》中通关完整五小时第一章。这些显著成果证明了Lumine在不同世界与交互机制中的高效性,标志着开放环境下通用AI智能体发展的实质性进展。

Grounding Computer Use Agents on Human Demonstrations

基于人类演示的计算机使用智能体基础构建

构建可靠的计算机使用智能体需要基础化:将自然语言指令与正确的屏幕元素精确关联。尽管已有大量网页和移动交互数据集,但桌面环境的高质量数据资源仍显不足。为填补这一空白,我们推出了 GroundCUA------一个基于专家人类演示构建的大规模桌面基础化数据集。该数据集覆盖 12 个类别下的 87 个应用程序,包含 5.6 万张屏幕截图,所有屏幕元素均经过精细标注,累计人类验证标注量超过 356 万条。基于这些演示,我们生成了涵盖广泛现实任务的多样化指令,为模型训练提供高质量数据支撑。利用 GroundCUA,我们开发了 GroundNext 系列模型,能够将指令映射至对应 UI 元素。在 30 亿和 70 亿参数规模下,通过监督微调,GroundNext 在五项基准测试中均达到最先进水平,且训练数据量不足先前工作的十分之一。后续强化学习进一步提升了模型性能,在 OSWorld 基准的智能体测试环境中,以 o3 作为规划器时,GroundNext 取得了与使用远超其训练数据量的模型相当或更优的结果。这些成果印证了高质量专家驱动数据集对推进通用计算机使用智能体发展的关键作用。

Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B

小模型,大逻辑:多样性驱动优化激发 VibeThinker-1.5B 的大模型级推理能力

针对当前普遍认为小模型天生缺乏强大推理能力的共识,本报告提出了 VibeThinker-1.5B,这是一个通过频谱到信号原则 (SSP) 开发的 1.5B 参数密集模型。该模型挑战了通过扩大模型参数来提升能力的流行方法,例如 DeepSeek R1 (671B) 和 Kimi k2 (>1T) 等模型所采用的策略。SSP 框架首先采用两阶段多样性探索蒸馏 (SFT) 生成广泛的解空间,随后通过最大熵引导策略优化 (RL) 强化正确信号。总训练成本仅为 7,800 美元,VibeThinker-1.5B 在推理能力上优于闭源模型如 Magistral Medium 和 Claude Opus 4,并与开源模型 GPT OSS-20B Medium 表现相当。值得注意的是,它在三个数学基准测试中超越了参数规模大 400 倍的 DeepSeek R1:AIME24 (80.3 对 79.8)、AIME25 (74.4 对 70.0) 和 HMMT25 (50.4 对 41.7)。这相对于其基础模型(得分分别为 6.7、4.3 和 0.6)是显著提升。在 LiveCodeBench V6 上,其得分为 51.1,超过 Magistral Medium 的 50.3 及其基础模型的 0.0。这些结果表明,小模型能够实现与大模型相媲美的推理能力,大幅降低训练和推理成本,从而推动先进 AI 研究的普及。

HaluMem: Evaluating Hallucinations in Memory Systems of Agents

HaluMem:评估智能体记忆系统中的幻觉

记忆系统是实现大语言模型(LLM)和AI智能体等人工智能系统长期学习与持续交互的关键组件。然而在记忆存储和检索过程中,这些系统常出现记忆幻觉现象,包括虚构、错误、冲突和遗漏等问题。现有对记忆幻觉的评估主要采用端到端问答形式,难以准确定位幻觉在记忆系统内部产生的具体操作环节。为此,我们提出记忆幻觉基准(HaluMem),这是首个专为记忆系统设计的操作级幻觉评估基准。HaluMem定义了记忆提取、记忆更新和记忆问答三项评估任务,全面揭示交互过程中不同操作阶段的幻觉行为。为支持评估,我们构建了以用户为中心的多轮人机交互数据集HaluMem-Medium和HaluMem-Long,两者均包含约1.5万记忆点和3500个多类型问题。每个用户的平均对话轮数分别达到1500轮和2600轮,上下文长度超过100万token(Token),可评估不同上下文规模与任务复杂度下的幻觉现象。基于HaluMem的实证研究表明,现有记忆系统在提取和更新阶段容易产生并积累幻觉,进而将错误传播至问答阶段。未来研究应致力于开发具有可解释性的受约束记忆操作机制,系统性地抑制幻觉并提升记忆可靠性。

One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models

潜在空间一小步,像素维度大跨越:扩散模型快速潜在上采样适配器

扩散模型难以突破其训练分辨率的限制:直接进行高分辨率采样速度缓慢且计算成本高昂,而后处理的图像超分辨率(ISR)方法需在解码后执行操作,不仅会引入伪影,还会增加额外延迟。本文提出潜在上采样适配器(LUA),该轻量模块可在最终VAE解码步骤之前,直接在生成器的潜在编码上执行超分辨率。LUA以即插即用式组件形式集成,无需修改基础模型结构或增加额外扩散阶段,仅需在潜在空间执行单次前向传播即可实现高分辨率合成。其采用共享式Swin架构骨干网络配合多尺度像素重组头,支持2倍与4倍上采样因子,同时保持与图像空间超分辨率基准的兼容性------在达到相近感知质量的前提下,将解码与上采样时间降低近3倍(从512像素生成1024像素仅需增加0.42秒,而使用相同SwinIR架构的像素空间超分辨率需1.87秒)。此外,LUA在不同VAE的潜在空间均展现出卓越的泛化能力,无需针对每个新解码器重新训练即可快速部署。大量实验表明,LUA在保真度方面可媲美原生高分辨率生成,同时为现代扩散流程中的可扩展高保真图像合成提供了实用高效的解决方案。

TiDAR: Think in Diffusion, Talk in Autoregression

TiDAR: 扩散思考,自回归交谈

扩散语言模型具备快速并行生成能力,而自回归 (AR) 模型因其因果结构与语言建模天然契合,通常在生成质量上更优。这引出一个核心问题:能否在实现高吞吐量、更高 GPU 利用率的同时,达到 AR 级别的质量?现有方法均未能有效平衡这两方面:要么采用较弱模型进行顺序草稿生成(推测解码)以优先保障 AR 特性,导致草稿效率低下;要么为扩散模型引入类 AR 的左到右解码逻辑,仍面临质量下降问题且丧失并行潜力。我们提出 TiDAR------一种序列级混合架构,通过专门设计的结构化注意力掩码,在单次前向传播中实现扩散式 token 草稿生成(思考)与自回归最终输出采样(交谈)。该设计充分利用 GPU 闲置计算资源,在草稿生成与验证能力间取得优异平衡。此外,TiDAR 作为独立模型具备低开销的部署友好特性。我们在 1.5B 和 8B 规模下,针对生成与似然任务对 TiDAR、AR 模型、推测解码及扩散变体进行广泛评估。凭借并行草稿生成与采样机制以及精确 KV 缓存支持,TiDAR 在吞吐量上超越推测解码,在效率与质量方面均优于 Dream、Llada 等扩散模型。最显著的是,TiDAR 成为首个在保持每秒生成 4.71-5.91 倍更多 token 的同时,完全弥合与 AR 模型质量差距的架构。

IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction

IterResearch:通过马尔可夫状态重构重新思考长视野智能体

深度研究智能体的最新进展表明,通过对外部信息源进行动态推理,有望实现自主知识构建。然而,现有方法采用单上下文范式,将所有信息累积在持续扩展的上下文窗口中,导致上下文拥塞和噪声干扰,从而限制了其在长视野任务中的效能。我们提出 IterResearch,一种新颖的迭代式深度研究范式,将长视野研究重新定义为具有策略性工作区重构的马尔可夫决策过程。该方法通过维护动态演进的报告作为记忆体,并定期整合关键见解,可在任意探索深度下保持稳定的推理能力。我们还开发了效率感知策略优化 (EAPO),这是一个基于几何奖励衰减机制激励高效探索的强化学习框架,并通过自适应降采样实现稳定的分布式训练。大量实验表明,IterResearch 在六个基准测试中相较现有开源智能体平均提升 14.5 个百分点,显著缩小了与尖端专有系统的差距。值得注意的是,该范式展现出前所未有的交互扩展能力,支持多达 2048 次交互且性能大幅提升(从 3.5% 增至 42.5%),同时作为有效的提示策略,在长视野任务中较 ReAct 将尖端模型性能提升最高达 19.2 个百分点。这些成果确立了 IterResearch 作为长视野推理的多功能解决方案,既可作为训练完备的智能体独立运行,也可作为尖端模型的提示范式使用。

PAN: A World Model for General, Interactable, and Long-Horizon World Simulation

PAN:通用、可交互与长视野的世界模拟模型

世界模型使智能体能够想象、预测并推理世界如何随其动作演变,从而进行规划与决策。尽管当前视频生成模型可生成逼真视觉序列,但它们多采用从提示到完整视频的生成模式,缺乏因果控制、交互能力以及目标导向推理所需的长期一致性。而现有世界建模方法常局限于特定领域(如物理、游戏或三维场景动态),深度不足且可控性有限,难以泛化至多样化环境与交互形式。本文提出PAN,一种通用、可交互且支持长视野的世界模型,它基于历史状态与自然语言动作,通过高质量视频模拟预测未来世界状态。PAN采用生成式潜在预测(GLP)架构:其自回归潜在动态主干基于大语言模型(LLM),将模拟锚定于广泛文本知识,并支持语言指定动作的条件控制;视频扩散解码器则重建感知细节丰富且时序一致的视觉观测。该架构实现了潜在空间推理(想象)与可实现世界动态(现实)的统一。通过在大规模跨领域视频-动作对上进行训练,PAN支持开放域的动作条件模拟,并保持连贯的长期动态。大量实验表明,相较于其他视频生成器与世界模型,PAN在动作条件世界模拟、长视野预测及模拟推理任务中均表现优异,为构建通用世界模型迈出关键一步------这类模型能通过对未来状态的预测模拟支持推理与行动决策。

MADD: Multi-Agent Drug Discovery Orchestra

MADD:多智能体药物发现协奏曲

苗头化合物识别是早期药物发现的核心挑战,传统方法需耗费大量实验资源。人工智能的最新进展,特别是大语言模型 (LLMs),催生了可降低成本和提升效率的虚拟筛选方法。然而,这些工具日益复杂,限制了湿实验研究人员的实际使用。多智能体系统通过融合 LLMs 的可解释性与专业模型及工具的精确性,提供了颇具前景的解决方案。本研究提出 MADD------一个能够根据自然语言查询构建并执行定制化苗头化合物识别流程的多智能体系统。MADD 部署四个协同工作的智能体,分别处理从头化合物生成与筛选中的关键子任务。我们在七个药物发现案例中评估 MADD,证明其性能优于现有基于 LLM 的解决方案。借助 MADD,我们率先将 AI 驱动的药物设计应用于五个生物靶标,并公开了已识别的苗头分子。最后,我们建立了包含三百余万种化合物的查询-分子对与对接评分新基准,以推动药物设计迈向智能体主导的未来。

Too Good to be Bad: On the Failure of LLMs to Role-Play Villains

过于良善难成恶:大语言模型在反派角色扮演中的失败

大语言模型(LLMs)正日益承担创造性生成任务,包括模拟虚构角色。然而,模型在刻画非亲社会或敌对型角色方面的能力仍鲜有研究。我们假设,现代大语言模型的安全对齐机制与逼真扮演道德模糊或反派角色的任务之间存在根本性冲突。为探究此问题,我们提出了道德角色扮演基准(Moral RolePlay benchmark),该新数据集包含四级道德倾向量表和一个平衡测试集,用于严格评估。我们要求前沿大语言模型扮演从道德楷模到纯粹恶棍的各类角色。大规模评估结果表明,随着角色道德水平的降低,角色扮演的逼真度呈现稳定且单调的下降趋势。模型在与安全原则直接冲突的特质上表现最差,如"欺诈性"和"操纵性",往往以浅层的攻击性替代复杂的恶意刻画。此外,我们发现通用聊天机器人能力无法有效预测反派扮演水平,高度优化安全的模型表现尤为逊色。本研究首次系统性地揭示了这一关键局限,突显了模型安全性与创造性真实度之间的核心矛盾。所提出的基准和结论为开发更精细、情境感知的对齐方法奠定了基础。

Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising

Time-to-Move:通过双时钟去噪实现免训练的运动控制视频生成

基于扩散模型的视频生成技术能够合成逼真视频,但现有基于图像和文本的条件控制方法无法实现精确的运动控制。以往的运动条件合成方法通常需要对特定模型进行微调,计算成本高昂且适用性受限。本文提出 Time-to-Move (TTM) ,一种免训练、即插即用 (plug-and-play) 的框架,通过图像到视频 (I2V) 扩散模型实现运动与外观可控的视频生成。我们的核心思路是利用通过用户友好操作(如剪切-拖拽 (cut-and-drag) 或基于深度的重投影 (depth-based reprojection))获得的粗略参考动画。受 SDEdit 利用粗略布局线索 (coarse layout cues) 进行图像编辑的启发,我们将这些粗略动画视为运动线索,并将该机制扩展至视频领域。我们通过图像条件保持外观一致性,并引入双时钟去噪 (dual-clock denoising) ------ 一种区域依赖策略,在运动指定区域强制执行严格对齐,同时在其余区域保持灵活性,从而在用户意图忠实度与自然运动动态之间取得平衡。这种对采样过程的轻量级修改无需额外训练或运行时开销,且兼容任何骨干网络。在物体运动和相机运动的基准测试上进行的大量实验表明,TTM 在真实感与运动控制精度方面达到或超越了现有基于训练的基线方法。此外,TTM 还具备独特优势:通过像素级条件控制实现精确的外观调控,突破了纯文本提示的限制。欢迎访问我们的项目页面查看视频示例和代码:time-to-move.github.io/。

DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation

DRIVE: 竞争性代码生成中带可验证奖励的强化学习数据管理最佳实践

近期推理优先模型(如 OpenAI o1、DeepSeek R1)重新激发了对 RLVR 的兴趣。然而,相关进展主要集中在数学领域(如 AIME),竞争性编程代码生成方向探索不足,且数据管理受到的关注远少于 RL 算法设计。本研究探讨如何构建 RLVR 数据集(即 RL 提示),并提出在竞争性编程代码生成中实现强劲性能的实用训练技术。我们的流程始于从强开源模型蒸馏得到的监督微调(SFT),并辅以通用型与推理密集型数据进行增强。随后,强化学习采用包含可执行测试用例驱动奖励的两阶段流程:首先,在均匀分布的大规模竞争性编程问题集上,使用组相对策略优化(GRPO)进行训练,每个提示执行 8 次 rollout,并设置较短响应生成窗口(如 SFT 阶段 32k,本阶段 24k)以扩展熵并减少重复与截断问题;其次,执行 \textbf{Pre-GRPO} 阶段:在小型高质量挑战性问题集上,以每个提示 64 次 rollout 的大预算进行更新,采用硬焦点课程策略持续保留训练全程中最困难的实例。我们在 Qwen2.5-32B 上实现该方法,并在 LeetCode 和 Codeforces 周赛中进行评估以避免数据泄露。最终模型在同等规模模型中达到最先进性能,与 DeepSeek v3.1、Doubao-1.5-Thinking 等领先系统表现相当。我们还分析了缩放趋势,在内部大规模混合专家(MoE)模型上观察到显著的 RL 缩放效应。本研究提炼出竞争性编程代码生成中 RLVR 数据管理、熵扩展与课程设计的简洁最佳实践。

Visual Spatial Tuning

视觉空间调优

从视觉输入中捕获空间关系是实现人类水平通用智能的关键基础。先前研究多通过引入额外专家编码器来增强视觉语言模型 (VLMs) 的空间感知能力,但这不仅增加了计算开销,还往往损害模型的通用性能。为在通用架构中有效提升空间能力,我们提出视觉空间调优 (VST) 这一综合框架,旨在系统培养 VLMs 从空间感知到推理的类人视觉空间能力。我们首先通过构建大规模数据集 VST-P 来强化空间感知,该数据集包含 410 万样本,覆盖单视图、多图像和视频三大场景下的 19 类空间任务。继而推出 VST-R 精选数据集(含 13.5 万样本),专门训练模型进行空间推理。我们采用渐进式训练策略:先通过监督微调建立空间知识基础,再通过强化学习进阶优化空间推理能力。在保持通用能力不受影响的前提下,VST 在多个空间基准测试中均达到最先进水平,如在 MMSI-Bench 上获得 34.8% 的准确率,在 VSIBench 上达到 61.2%。实验表明,所提出的空间调优范式能显著增强视觉-语言-行动模型,为推动具身智能发展奠定基础。

相关推荐
mit6.8242 小时前
[AI tradingOS] 市场数据系统 | 多交易所交易接口 | 适配器模式
人工智能·区块链
ar01232 小时前
AR远程协助公司哪家好?国内外优秀AR技术公司解析
人工智能·ar
zhishidi2 小时前
大模型个性化推荐面试指南
人工智能·面试
中电金信2 小时前
2025新加坡金融科技节:看AI驱动的金融转型策略与“中国方案”
大数据·人工智能·金融
代码AI弗森2 小时前
为什么 AI 推理天然更偏向 ARM(而不是 x86)
arm开发·人工智能
桂花饼3 小时前
GPT‑5 全面解析与开发者接入指南
人工智能·gpt-5·claude code·nano banana·sora2 api
钅日 勿 XiName3 小时前
一小时速通Pytorch之神经网络相关知识(三)
人工智能·pytorch·神经网络
你也渴望鸡哥的力量么4 小时前
GeoSeg 框架解析
人工智能