每周AI论文速递(251201-251205)

From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence

从代码基础模型到智能体与应用:代码智能实用指南

大语言模型 (LLMs) 从根本上改变了自动化软件开发,实现了将自然语言描述直接转换为功能代码,并通过诸如 GitHub Copilot (Microsoft)、Cursor (Anysphere)、Trae (ByteDance) 和 Claude Code (Anthropic) 等工具推动了商业应用。该领域已从基于规则的系统演进为基于 Transformer 的架构,在 HumanEval 等基准测试上的性能从个位数成功率提升至超过 95%。在本工作中,我们提供了一份关于代码大语言模型的全面综述与实用指南(包含一系列分析和探索性实验),系统性地审视了从数据管理到后训练的完整模型生命周期,涉及高级提示范式、代码预训练、监督微调、强化学习以及自主编码智能体。我们评估了通用大语言模型(GPT-4、Claude、LLaMA)与代码专用大语言模型(StarCoder、Code LLaMA、DeepSeek-Coder、QwenCoder)的代码能力,并批判性地探讨了相关技术、设计决策及其权衡。此外,我们阐明了学术研究(例如基准测试与任务)与实际部署(例如软件相关的代码任务)之间的差距,涵盖代码正确性、安全性、大型代码库的上下文感知以及与开发工作流的集成,并将有前景的研究方向与实际需求相关联。最后,我们通过一系列实验,对代码预训练、监督微调和强化学习进行了全面分析,内容涵盖缩放定律、框架选择、超参数敏感性、模型架构和数据集比较。

DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

DeepSeek-V3.2: 推动开源大语言模型的前沿

我们推出 DeepSeek-V3.2,这是一个将高效计算与卓越的推理及智能体性能融为一体的模型。DeepSeek-V3.2 的关键技术突破如下:(1) DeepSeek 稀疏注意力 (DSA):我们引入了 DSA,这是一种高效的注意力机制,能在长上下文场景中显著降低计算复杂度,同时保持模型性能。(2) 可扩展的强化学习框架:通过采用稳健的强化学习协议并扩展后训练阶段的计算规模,DeepSeek-V3.2 的性能与 GPT-5 相当。值得注意的是,我们的高计算配置变体 DeepSeek-V3.2-Speciale 超越了 GPT-5,其推理能力与 Gemini-3.0-Pro 并驾齐驱,在 2025 年国际数学奥林匹克竞赛 (IMO) 和国际信息学奥林匹克竞赛 (IOI) 中均取得了金牌级别的成绩。(3) 大规模面向智能体的任务合成流水线:为了将推理能力融入工具使用场景,我们开发了一种新颖的合成流水线,能够系统性地大规模生成训练数据。该方法支持可扩展的智能体后训练,从而在复杂、交互式的环境中,显著提升了模型的泛化能力和遵循指令的鲁棒性。

LongVT: 通过原生工具调用实现"长视频思维"

LongVT: 通过原生工具调用实现"长视频思维"

大模态模型 (Large Multimodal Models, LMMs) 在结合文本思维链进行视频推理方面展现出巨大潜力。然而,它们仍易产生幻觉,尤其是在处理那些证据稀疏且时间分布分散的长视频时。受人类理解长视频方式(先全局概览,再细查相关片段)的启发,我们提出了 LongVT,一个端到端的智能体框架。该框架通过交错进行的"多模态工具调用思维链",实现了"用长视频进行思考"。具体而言,我们将 LMMs 固有的时间定位能力作为一种原生视频裁剪工具,用于聚焦特定视频片段并重新采样更细粒度的视频帧。这种从全局到局部的推理循环会持续进行,直至答案能够基于检索到的视觉证据得到确认。针对长视频推理任务中细粒度问答 (QA) 数据稀缺的问题,我们构建并将发布一个名为 VideoSIAH 的数据套件,以支持模型的训练与评估。具体来说,我们的训练数据集包含:24.79 万个用于工具集成冷启动监督微调的样本、1600 个用于智能体强化学习的样本,以及 1.54 万个用于智能体强化微调的样本。我们的评估基准包含 1280 个 QA 对,这些数据通过一个半自动的数据流水线精心构建,并经过了人工验证。通过精心设计的三阶段训练策略和广泛的实证评估,LongVT 在四个具有挑战性的长视频理解与推理基准测试中,均持续超越现有的强基线模型。我们的代码、数据及模型检查点均已公开,地址为:github.com/EvolvingLMM...

Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

Z-Image: 基于单流扩散Transformer的高效图像生成基础模型

当前,高性能图像生成领域主要由专有系统主导,例如 Nano Banana Pro 和 Seedream 4.0。而领先的开源替代方案,如 Qwen-Image、Hunyuan-Image-3.0 和 FLUX.2,则普遍参数量庞大 (200亿至800亿),导致其在消费级硬件上进行推理和微调都极不现实。为弥补这一空白,我们提出了 Z-Image,这是一个参数规模为 60亿 的高效基础生成模型。它基于可扩展单流扩散Transformer (Scalable Single-Stream Diffusion Transformer, S3-DiT) 架构构建,旨在挑战"不计成本堆叠规模"的行业范式。通过对整个模型生命周期进行系统性优化------从精心构建的数据基础设施到高效精简的训练方案------我们仅消耗了 31.4万 H800 GPU 小时 (约合 63万美元) 便完成了完整的训练流程。我们结合奖励后训练的少步蒸馏方案进一步得到了 Z-Image-Turbo,该版本不仅能在企业级 H800 GPU 上实现亚秒级推理延迟,还能兼容显存小于 16GB 的消费级硬件。此外,我们的全预训练范式也支持高效训练出 Z-Image-Edit,这是一个具备出色指令遵循能力的图像编辑模型。定性与定量实验均表明,我们的模型在多个维度上的性能均可比肩乃至超越领先的竞争对手。尤为突出的是,Z-Image 在生成逼真图像和渲染双语文本方面表现卓越,其效果足以媲美顶尖的商业模型。这证明了,即使大幅降低计算开销,同样能够实现最先进的性能。为促进可获取、低成本且性能领先的生成模型发展,我们已公开代码、模型权重并提供在线演示。

Live Avatar: 流式实时音频驱动的无限长度虚拟形象生成

Live Avatar: 流式实时音频驱动的无限长度虚拟形象生成

现有基于扩散模型的视频生成方法,从根本上受限于顺序计算和长时不一致性问题,制约了其在实时流式音频驱动虚拟形象合成中的实际采用。我们提出了 Live Avatar,一个算法-系统协同设计框架,能够利用一个 140 亿参数的扩散模型,实现高效、高保真且无限长度的虚拟形象生成。我们的方法引入了时间步强制流水线并行 (Timestep-forcing Pipeline Parallelism, TPP),这是一种分布式推理范式,它跨多个 GPU 对去噪步骤进行流水线处理,从而有效打破自回归瓶颈,确保稳定、低延迟的实时流生成。为了进一步增强时间一致性,并缓解身份漂移和颜色伪影问题,我们提出了滚动锚定帧机制 (Rolling Sink Frame Mechanism, RSFM),该机制通过利用缓存的参考图像动态重校准外观,以维持序列保真度。此外,我们采用自强制分布匹配蒸馏技术,在不牺牲视觉质量的前提下,实现了大规模模型的因果性、可流式化适配。Live Avatar 展现了最先进的性能,在 5 块 H800 GPU 上实现了 20 FPS 的端到端生成速度。据我们所知,这是首个在此参数量级上实现实用化、实时、高保真虚拟形象生成的工作。我们的研究为在工业级长视频合成应用中部署先进扩散模型确立了一种新范式。

DAComp: 全数据智能生命周期数据智能体基准测试

DAComp: 全数据智能生命周期数据智能体基准测试

现实中的企业数据智能工作流涵盖两大环节:一是将原始数据源转化为可供分析表格的数据工程 ,二是将这些表格转化为决策洞察的数据分析。为此,我们提出了DAComp基准,它包含210个任务,旨在模拟这些复杂的工作流。数据工程(DE)任务要求对工业级数据模式进行仓库层面的工程操作,包括从零开始设计和构建多阶段SQL管道,以及在需求演进时对现有系统进行改造。数据分析(DA)任务则提出开放式的业务问题,要求进行战略规划、通过迭代编码进行探索性分析、解读中间结果,并最终综合出可执行的建议。工程类任务采用基于执行的多指标评估体系进行评分。开放式任务则由一个经过实验验证的、可靠的LLM-judge进行评估,该评估器遵循一套分层且精心设计的评分标准。

我们的实验表明,即使是当前最先进的AI智能体在DAComp上也表现欠佳。数据工程任务的表现尤其低下,成功率不足20%,这暴露了在整体管道编排(而不仅仅是代码生成)方面存在关键瓶颈。数据分析任务的平均得分也低于40%,突显了智能体在开放式推理方面存在严重不足,并证明工程能力与分析能力是两种截然不同的技能。通过清晰地诊断这些局限,DAComp为开发真正适用于企业环境的、能力全面的自主数据智能体提供了一个严谨且贴近现实的测试平台。我们的数据与代码公开于 da-comp.github.io。

Qwen3-VL Technical Report

Qwen3-VL 技术报告

我们推出 Qwen3-VL,这是 Qwen 系列迄今为止能力最强的视觉语言模型 (Vision-Language Model),在广泛的多模态基准测试中均取得了卓越性能。该模型原生支持高达 256K token 的交错多模态上下文,能够无缝融合文本、图像与视频输入。模型系列包含密集 (2B/4B/8B/32B) 与专家混合 (Mixture-of-Experts, MoE) (30B-A3B/235B-A22B) 两种架构变体,以满足不同场景下对延迟与质量的权衡需求。Qwen3-VL 的核心优势体现在三个方面:(i) 显著增强的纯文本理解能力,在多项测试中超越了同等规模的纯文本骨干模型;(ii) 强大的长上下文理解能力,其原生 256K token 窗口同时支持纯文本及交错的多模态输入,可对长文档和视频内容实现准确的信息保持、检索与交叉引用;(iii) 先进的跨模态推理能力,在单图、多图及视频任务上均表现优异,在 MMMU 及视觉数学基准 (如 MathVista 和 MathVision) 等综合评估中取得了领先的性能表现。在模型架构层面,我们进行了三项关键升级:(i) 引入增强型交错-MRoPE (interleaved-MRoPE),以提升对图像与视频的时空建模能力;(ii) 集成 DeepStack 模块,通过有效利用多层次 ViT 特征来强化视觉与语言的对齐;(iii) 为视频任务设计了基于文本的时间对齐机制,从 T-RoPE 演进为显式的文本时间戳对齐,从而实现更精准的时序定位。在相近的 token 预算与延迟约束下,Qwen3-VL 在密集与 MoE 架构中均展现出卓越的性能。我们期待 Qwen3-VL 能够成为实际工作流中,支撑图像推理、智能体决策以及多模态代码智能的基础引擎。

ToolOrchestra: 通过高效的模型与工具编排增强智能

ToolOrchestra: 通过高效的模型与工具编排增强智能

大语言模型 (LLM) 是强大的通用系统,但在解决诸如"人类终极考试" (Humanity's Last Exam, HLE) 这类深刻且复杂的问题时,仍面临概念上的挑战和较高的计算成本。我们的研究表明,通过小型编排器来管理其他模型与多样化工具,不仅能够突破智能水平的极限,还能提升解决复杂 AI 智能体 (AI Agent) 任务的效率。本文提出了 ToolOrchestra,一种用于训练小型编排器以协调智能工具的方法。该方法明确采用强化学习,并设计了基于结果、效率和用户偏好的奖励机制。基于 ToolOrchestra,我们训练出了 Orchestrator,这是一个拥有 80 亿参数的模型。对于给定的查询,Orchestrator 能以比以往的工具使用智能体更低的成本获得更高的准确率,同时其工具选择行为能与用户偏好保持一致。在 HLE 基准测试中,Orchestrator 取得了 37.1% 的得分,超越了 GPT-5 (35.1%),并且效率是后者的 2.5 倍。在 tau2-Bench 和 FRAMES 基准上,Orchestrator 以显著优势领先于 GPT-5,而成本仅约为后者的 30%。深入分析表明,Orchestrator 在多项指标下实现了性能与成本的最佳权衡,并且对未见过的工具展现出强大的泛化能力。这些结果证明,利用轻量级编排模型组合多样化工具,相比现有方法不仅效率更高,而且效果更好,从而为构建实用、可扩展的工具增强推理系统铺平了道路。

Envision: 面向因果世界过程洞察的统一理解与生成基准

Envision: 面向因果世界过程洞察的统一理解与生成基准

当前的多模态模型旨在通过统一理解与生成来克服单模态表示的局限,通常采用文本到图像 (T2I) 任务来确保语义一致性。然而,其在训练和评估中对静态单图像生成的依赖,导致了对静态模式匹配与语义融合的过拟合,同时也从根本上限制了模型对随时间演变的动态过程进行建模的能力。为应对这些局限,我们提出了 Envision------一个用于链式文本到多图像生成的因果事件进展基准。该基准基于世界知识,并以时空因果关系为结构,它整合了现有的评估维度,并包含了涵盖六个科学与人文领域的 1000 个四阶段提示。为了将评估从单图像扩展到序列帧,并检验模型是否在遵循因果-时间约束的同时真正内化了世界知识,我们引入了 Envision-Score,这是一个综合了多维一致性、物理合理性与美学质量的整体评估指标。对 15 个模型 (10 个专用 T2I 模型,5 个统一模型) 的全面评估表明:专用 T2I 模型在美学渲染上表现熟练,但缺乏深层的世界知识。统一多模态模型则弥补了这一不足,在因果叙事连贯性上持续优于专用模型。然而,即便是这些统一架构,其性能仍落后于闭源模型,且难以克服时空一致性的核心挑战。这表明,专注于因果孤立的单图像会阻碍多帧推理与生成,导致模型偏向于静态模式匹配而非动态世界建模,最终限制了世界知识的内化与内容的生成。

Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

使用大语言模型稳定强化学习:公式化与方法

本文提出了一种基于大语言模型 (LLM) 的强化学习 (RL) 新公式,阐释了为何以及何种条件下,可以通过 REINFORCE 等策略梯度方法中的代理 token 级别目标函数来优化真实的序列级别奖励。具体而言,通过一阶近似分析,我们证明,只有当训练-推断差异与策略滞后性均被最小化时,该代理目标函数的有效性才能得到保证。这一见解从原理上解释了几种广泛采用的 RL 训练稳定化技术的关键作用,包括重要性采样校正、梯度裁剪,以及特别针对混合专家 (Mixture-of-Experts, MoE) 模型的路由重放。通过在一个总计消耗数十万 GPU 小时的 300 亿参数 MoE 模型上进行大量实验,我们发现:对于同策略 (on-policy) 训练,带有重要性采样校正的基本策略梯度算法能实现最高的训练稳定性。而当引入异策略 (off-policy) 更新以加速收敛时,结合梯度裁剪与路由重放对于缓解因策略滞后性引起的不稳定性至关重要。值得注意的是,一旦训练趋于稳定,无论采用何种冷启动初始化方式,持续优化总能获得相当的最终性能。我们希望,所分享的见解与开发的稳定 RL 训练方案能促进未来的研究。

DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

DeepSeekMath-V2: 迈向可自我验证的数学推理

大语言模型在数学推理方面取得了显著进展。数学推理是人工智能的一个重要测试平台,其进一步发展可能影响科学研究。通过采用奖励最终正确答案的强化学习来扩展推理能力,大语言模型在一年内从性能不佳提升到在 AIME、HMMT 等定量推理竞赛中达到性能饱和。然而,这种方法存在根本性局限。追求更高的最终答案准确率无法解决一个关键问题:正确答案并不能保证推理过程正确。此外,许多数学任务(如定理证明)需要严格的逐步推导,而非仅仅给出数值答案,这使得基于最终答案的奖励机制无法适用。为了突破深度推理的瓶颈,我们认为有必要对数学推理的全面性和严谨性进行验证。自我验证对于扩展测试阶段的计算资源尤为重要,特别是对于那些没有已知解的开放性问题。为实现可自我验证的数学推理,我们研究了如何训练一个准确、可靠的大语言模型验证器用于定理证明。接着,我们以该验证器作为奖励模型来训练一个证明生成器,并激励生成器在最终确定证明前,尽可能多地识别并解决自身证明中的问题。为防止生成器能力增强导致生成与验证之间的差距缩小,我们提出通过增加验证阶段的计算资源,自动标注新产生的、难以验证的证明,从而创建训练数据以持续改进验证器。由此得到的模型 DeepSeekMath-V2 展现出强大的定理证明能力:在增加测试阶段计算资源的情况下,它在 IMO 2025 和 CMO 2024 上获得了金牌级分数,并在 Putnam 2024 上取得了接近满分的 118/120 分。

Nex-N1: 通过大规模环境构建的统一生态系统训练的智能体模型

Nex-N1: 通过大规模环境构建的统一生态系统训练的智能体模型

大语言模型 (LLMs) 从被动响应者向自主智能体的演进,要求学习范式发生根本性转变------即从静态模仿转向激励驱动的决策。然而,由于缺乏能够为有效策略学习生成高质量交互信号的可扩展基础设施,这一转变受到了严重阻碍。为解决此问题,我们提出了一种综合性方法,旨在系统化地提升交互环境的多样性和复杂性。该方法通过解决三个相互独立且互补的维度来实现规模化构建:(1) 复杂性:NexAU,一个灵活的智能体框架,支持通过简单配置构建复杂的智能体层次结构;(2) 多样性:NexA4A 能够从自然语言自动生成多样化的智能体层次结构,从而覆盖无限领域;(3) 保真度:NexGAP 通过集成动态的真实世界环境来合成具身轨迹,以此弥合仿真与现实之间的鸿沟。我们基于该基础设施所建立的多样且复杂的交互环境对 Nex-N1 进行了训练。在 SWE-bench 和 tau2 等基准测试上的实证结果表明,Nex-N1 始终优于最先进的开源模型,并且在复杂的智能体任务上,其性能可与前沿的专有模型相竞争。我们开源了 Nex 生态系统及模型权重,以推动相关领域的进一步研究。

MultiShotMaster: 可控多镜头视频生成框架

MultiShotMaster: 可控多镜头视频生成框架

当前的视频生成技术擅长生成单镜头片段,但难以生成具有叙事性的多镜头视频。这类视频需要灵活的镜头安排、连贯的叙事逻辑以及超越文本描述的控制能力。为应对这些挑战,我们提出了 MultiShotMaster,一个具备高可控性的多镜头视频生成框架。我们通过集成两种新颖的 RoPE (Rotary Position Embedding) 变体,扩展了一个预训练的单镜头模型。首先,我们引入了多镜头叙事 RoPE,它在镜头切换时施加显式的相位偏移,从而在维持时序叙事的前提下实现灵活的镜头编排。其次,我们设计了时空位置感知 RoPE,以融入参考 token 和 grounding (接地) 信号,从而实现基于时空位置的参考信息注入。此外,为克服数据稀缺问题,我们构建了一套自动化数据标注流水线,用于从视频数据中解析出多镜头视频片段、对应字幕、跨镜头 grounding 信号以及参考图像。我们的框架利用其内在的架构特性来支持多镜头视频生成,主要特点包括:文本驱动的镜头间一致性、支持运动控制的自定义主体(如物体或角色),以及背景驱动的自定义场景。镜头数量和时长均可灵活配置。大量实验表明,我们的框架在性能和可控性方面均表现优异。

Deep Research: A Systematic Survey

深度研究:一项系统性综述

大语言模型(LLMs)已迅速从文本生成工具演变为强大的问题求解器。然而,许多开放性任务要求具备批判性思维、整合多源信息并产生可验证的输出,这超出了单次提示(single-shot prompting)或标准检索增强生成(RAG)的能力范围。近期,大量研究开始探索深度研究(Deep Research, DR),其核心目标是将大语言模型的推理能力与搜索引擎等外部工具相结合,从而赋能大语言模型成为能够完成复杂、开放式任务的研究智能体(research agents)。本综述对深度研究系统进行了全面而系统的梳理,内容涵盖清晰的路线图、基础组件、实际实现技术、关键挑战以及未来方向。具体而言,我们的主要贡献如下:(i)形式化了一个三阶段路线图,并明确了深度研究与相关范式的区别;(ii)介绍了四个关键组件:查询规划、信息获取、记忆管理与答案生成,并为每个组件提供了细粒度的子类别划分;(iii)总结了包括提示工程、监督微调以及智能体强化学习在内的优化技术;(iv)整合了相关的评估标准与开放挑战,旨在为未来的发展提供指导与便利。鉴于深度研究领域正在快速发展,我们将持续维护并更新本综述,以同步反映该领域的最新进展。

How Far Are We from Genuinely Useful Deep Research Agents?

我们距离真正有用的深度研究智能体还有多远?

深度研究智能体 (Deep Research Agents, DRAs) 旨在通过迭代的信息检索与综合,自动生成分析师级别的报告。然而,现有的大多数 DRAs 仅在问答基准上进行验证,而生成综合性报告的研究仍被忽视。更严重的是,当前用于报告综合的基准存在任务复杂性和评估指标主观性强的问题,这既无法反映真实用户需求,也限制了生成报告的实际效用。为弥补这些不足,我们提出了细粒度深度研究基准 (Fine-grained DEepResearch bench, FINDER)。该基准经过增强,包含 100 个人工精心策划的研究任务,并配有 419 个结构化检查项,用以标准化报告的结构、分析深度和事实依据。基于主流 DRAs 生成的大约 1,000 份报告,我们进一步提出了深度研究失败分类法 (Deep rEsearch Failure Taxonomy, DEFT),这是首个专门针对深度研究智能体的失败模式分类体系。DEFT 涵盖了推理、检索和生成三个方面的 14 种细粒度失败模式,其构建基于扎根理论,并采用了人工与大语言模型协同标注以及标注者间一致性检验。我们的实验结果表明,当前 DRAs 的主要挑战并非任务理解,而是证据整合、验证以及在推理过程中保持稳健的规划能力。

TUNA: 构建统一视觉表示以实现原生统一多模态模型

TUNA: 构建统一视觉表示以实现原生统一多模态模型

统一多模态模型 (UMMs) 旨在单个框架内同时实现多模态理解与生成。我们提出了 TUNA,一个原生 UMM,它通过将 VAE 编码器与表示编码器级联,构建了一个统一的连续视觉表示。这一统一的表示空间支持对图像和视频进行端到端处理,以同时服务于理解和生成任务。与先前采用解耦表示的 UMMs 相比,TUNA 的统一视觉空间避免了因使用独立编码器而导致的表示格式不匹配问题,从而在理解和生成任务上均优于解耦方案。此外,我们发现,性能更强的预训练表示编码器能够在所有多模态任务上持续带来更优的性能,这凸显了表示编码器的重要性。最后,在这种统一框架下,联合使用理解和生成数据进行训练,能使两项任务相互促进而非相互干扰。我们在多模态理解与生成基准测试上进行了大量实验,结果表明,TUNA 在图像与视频理解、图像与视频生成以及图像编辑任务上均取得了最先进的性能,充分证明了其统一表示设计的有效性和可扩展性。

引导式大语言模型自进化:最小化人类监督

引导式大语言模型自进化:最小化人类监督

人工智能 (AI) 自进化 (self-evolution) 一直被视作通向超级智能的途径,即模型能够从其自身学习经验中自主地获取、优化并内化知识。然而,实际应用中,无引导的自进化系统往往很快陷入性能平台期,甚至在训练过程中发生退化。这些失败源于概念漂移 (concept drift)、多样性崩溃 (diversity collapse) 和错误进化 (mis-evolution) 等问题,因为模型会不断强化自身偏见,并收敛到低熵 (low-entropy) 行为。为了在最小化对人类监督依赖的同时,实现模型稳定、可控的自进化,我们提出了 R-Few:一个引导式的自我对弈 (Self-Play) 挑战者-求解器 (Challenger-Solver) 框架。该框架通过基于上下文的锚定 (in-context grounding) 和混合训练 (mixed training),引入了轻量级的人类监督。在每一轮迭代中,挑战者 (Challenger) 会采样一小部分人工标注的示例,用以指导合成问题的生成;而求解器 (Solver) 则遵循一个基于难度的在线课程学习 (online, difficulty-based curriculum) 策略,对人工示例和合成示例进行联合训练。在数学和通用推理基准测试中,R-Few 实现了持续且迭代的性能提升。例如,Qwen3-8B-Base 模型在数学任务上比 R-Zero 提升了 3.0 分,其性能与 General-Reasoner 相当,而后者的训练使用了多达 20 倍以上的人工标注数据。消融研究 (Ablation studies) 证实了基于锚定的挑战者训练 (grounded challenger training) 和基于课程的求解器训练 (curriculum-based solver training) 具有互补作用;进一步分析表明,R-Few 有效缓解了概念漂移,从而产生了更稳定、更可控的协同进化 (co-evolutionary) 动态。

MG-Nav:基于稀疏空间记忆的双尺度视觉导航

我们提出了 MG-Nav (Memory-Guided Navigation,记忆引导导航),这是一个用于零样本视觉导航的双尺度框架,它将全局记忆引导规划与局部几何增强控制相统一。其核心是稀疏空间记忆图 (Sparse Spatial Memory Graph, SMG),这是一种紧凑的、以区域为中心的记忆结构。其中每个节点聚合了多视角关键帧和对象语义信息,不仅能捕获外观与空间结构,还保留了视角多样性。在全局层面,智能体首先在 SMG 上进行定位,然后通过图像到实例的混合检索,规划出一条以目标为条件的节点路径,从而生成一系列可达的路径点,为长程导航提供引导。在局部层面,一个导航基础策略以点目标模式执行这些路径点,并采用障碍物感知控制;当从最终节点向视觉目标导航时,则切换至图像目标模式。为了进一步提升视角对齐和目标识别的能力,我们引入了 VGGT-adapter。这是一个基于预训练 VGGT 模型构建的轻量级几何模块,能够在共享的 3D 感知空间中对齐观测特征与目标特征。MG-Nav 以不同的频率执行全局规划和局部控制,并利用周期性的重新定位来纠正误差。在 HM3D Instance-Image-Goal 和 MP3D Image-Goal 基准测试上的实验表明,MG-Nav 实现了最先进的零样本性能,并且在动态场景重排和未见过的场景条件下仍能保持鲁棒性。

视频生成中的重力问题如何解决?利用可验证奖励对模型进行牛顿定律后训练

视频生成中的重力问题如何解决?利用可验证奖励对模型进行牛顿定律后训练

当前的视频扩散模型虽能生成视觉上逼真的片段,却常常违背基本物理定律,例如物体漂浮、加速度异常、碰撞行为不一致等,这揭示了视觉真实感与物理真实感之间存在的持续差距。为此,我们提出了 <math xmlns="http://www.w3.org/1998/Math/MathML"> NewtonRewards \texttt{NewtonRewards} </math>NewtonRewards,这是首个基于 <math xmlns="http://www.w3.org/1998/Math/MathML"> 可验证奖励 \textit{可验证奖励} </math>可验证奖励、以物理学原理为根基的视频生成后训练框架。该框架不依赖人类或视觉语言模型 (VLM) 的反馈,而是利用冻结的工具模型从生成视频中提取 <math xmlns="http://www.w3.org/1998/Math/MathML"> 可测量的代理量 \textit{可测量的代理量} </math>可测量的代理量:以光流作为速度的代理,以高级外观特征作为质量的代理。基于这些代理量,我们通过两种互补的奖励机制来显式地强化牛顿力学结构:一是强制执行恒定加速度动力学的牛顿运动学约束奖励,二是防止出现平凡退化解的质量守恒奖励。我们使用新构建的大规模基准数据集 <math xmlns="http://www.w3.org/1998/Math/MathML"> NewtonBench-60K \texttt{NewtonBench-60K} </math>NewtonBench-60K,在五种牛顿运动基元(自由落体、水平抛射、抛物线抛射、斜坡下滑与上滑)上对 <math xmlns="http://www.w3.org/1998/Math/MathML"> NewtonRewards \texttt{NewtonRewards} </math>NewtonRewards 进行了评估。在所有基元的视觉与物理指标上, <math xmlns="http://www.w3.org/1998/Math/MathML"> NewtonRewards \texttt{NewtonRewards} </math>NewtonRewards 均能持续提升生成视频的物理合理性、运动平滑度与时间连贯性,效果优于已有的后训练方法。此外,在高度、速度、摩擦力等参数发生分布外偏移时,该方法依然能保持强劲的性能。我们的研究结果表明,基于物理学的可验证奖励为实现物理感知的视频生成提供了一条可扩展的路径。

REASONEDIT: 面向推理增强的图像编辑模型

REASONEDIT: 面向推理增强的图像编辑模型

图像编辑模型近期取得了显著进展。一种常见的架构设计是将多模态大语言模型 (Multimodal Large Language Model, MLLM) 编码器与扩散解码器相结合,例如 Step1X-Edit 和 Qwen-Image-Edit 等系统。在这些系统中,MLLM 负责编码参考图像和编辑指令,但其参数在训练过程中保持冻结。本工作表明,释放 MLLM 的推理能力可以进一步拓展图像编辑模型的性能边界。具体而言,我们探索了两种推理机制------思维 (Thinking) 与反思 (Reflection),以提升模型对指令的理解能力和编辑准确性。基于此,我们提出了一个思维-编辑-反思循环框架:思维机制利用 MLLM 的世界知识来解析抽象指令,而反思机制则评估编辑结果、自动纠正非预期的修改,并确定停止迭代的时机。大量实验验证了我们推理方法的有效性。当基于 Step1X-Edit 初始化我们的 DiT 模型 (即 ReasonEdit-S) 时,在 ImgEdit (+4.3%)、GEdit (+4.7%) 和 Kris (+8.2%) 基准上均取得了显著提升。此外,当与 Qwen-Image-Edit 结合构建 ReasonEdit-Q 时,其在 GEdit 和 Kris 基准上的表现也超越了此前所有的开源方法。

相关推荐
北京耐用通信3 小时前
电磁阀通讯频频“掉链”?耐达讯自动化Ethernet/IP转DeviceNet救场全行业!
人工智能·物联网·网络协议·安全·自动化·信息与通信
cooldream20093 小时前
小智 AI 智能音箱深度体验全解析:人设、音色、记忆与多场景玩法的全面指南
人工智能·嵌入式硬件·智能音箱
oil欧哟3 小时前
AI 虚拟试穿实战,如何低成本生成模特上身图
人工智能·ai作画
央链知播4 小时前
中国移联元宇宙与人工智能产业委联席秘书长叶毓睿受邀到北京联合大学做大模型智能体现状与趋势专题报告
人工智能·科技·业界资讯
人工智能培训4 小时前
卷积神经网络(CNN)详细介绍及其原理详解(2)
人工智能·神经网络·cnn
YIN_尹4 小时前
目标检测模型量化加速在 openEuler 上的实现
人工智能·目标检测·计算机视觉
mys55184 小时前
杨建允:企业应对AI搜索趋势的实操策略
人工智能·geo·ai搜索优化·ai引擎优化
小毅&Nora5 小时前
【人工智能】【深度学习】 ⑦ 从零开始AI学习路径:从Python到大模型的实战指南
人工智能·深度学习·学习
牛阿大5 小时前
关于前馈神经网络
人工智能·深度学习·神经网络