VEGA-3D:释放视频生成模型中的隐式3D知识,重塑3D场景理解与具身交互

研究团队: 本工作由华中科技大学(Huazhong University of Science and Technology)与百度(Baidu Inc.)联合完成。

作者列表:Xianjin Wu, Dingkang Liang, Tianrui Feng, Kui Xia, Yumeng Zhang, Xiaofan Li, Xiao Tan, Xiang Bai。

核心问题:视频生成模型真的理解世界吗?

生成模型,到底能不能理解世界,或者说,它们能否促进对世界的理解?这是我们在推进 Generation Models Know Space 这项研究时,最核心的出发点。

过去在 3D 场景理解这个领域,我们往往习惯于一种思维定势:如果要让模型懂空间,就必须给它显式的 3D 数据,比如点云,或者在系统里硬塞进复杂的几何重建模块。这就导致整个理解链路非常沉重,而且严重受限于高质量的三维标注数据。

但当我们观察这两年飞速发展的视频生成模型时,我们意识到了一个常常被忽视的事实。当一个模型能够自然地生成一段视角切换、包含复杂遮挡关系的视频时,它其实已经在内部默默处理了深度、透视和物理距离。如果它不懂三维几何,生成的画面早就崩塌成了一堆混乱的像素。

所以 Motivation 变得非常清晰且直接:既然这些在大规模无标注视频上训练出的生成模型,为了造出逼真的画面,已经偷偷掌握了物理世界的空间逻辑,我们为什么还要舍近求远,去重新教理解模型学几何?

这篇论文提出了 VEGA-3D,旨在释放深藏于生成大模型内部的 3D 先验知识。研究表明,生成模型不仅是一个高超的"画师",更像是一个开箱即用的"空间知识库"。它将物理规律与几何结构压缩进参数之中,由生成任务催生出的隐式空间表征,具有很强的迁移能力,并能够直接服务于理解任务。

这不仅是一次技术路线的替换,更是一种研究范式的转变。我们不再将"生成"和"理解"视作彼此平行的两条轨道。尤其在具身智能场景下,当机器人需要在复杂物理空间中完成感知、推理与交互时,模型对三维环境的尺度感、几何直觉和空间一致性的把握,往往正是关键瓶颈。而借助生成模型反哺理解,则为突破这一瓶颈提供了一条极具潜力的新路径。

基于这一思路,来自华中科技大学与百度的联合团队设计了 VEGA-3D 框架,用于系统挖掘并利用生成模型中的空间先验,从而提升模型在场景理解、空间推理与具身任务中的表现。

它把物理法则压缩在了自己的参数里,这种为了生成而被迫建立的隐式空间表征极其强大,且可以直接迁移到理解任务中。在具体实现上,VEGA-3D 将视频生成模型(如 Wan2.1)作为 "潜在世界模拟器",通过自适应门控机制,将生成模型在中间去噪阶段展现出的纯粹 3D 结构先验,与原有的语义特征进行优雅融合。

Figure 1 摒弃复杂的 3D 依赖和几何监督,VEGA-3D 开创了生成先验增强的新范式。

为什么视频生成模型能懂 3D?因为要生成一段符合常理、时间连贯的视频,生成模型在内部必然学会了物体遮挡、相机运动带来的视差以及交互物理法则。VEGA-3D 的核心创新就在于如何 "榨干" 这股隐式力量:

  1. 将视频生成模型作为 "潜在世界模拟器"

摒弃了只用生成模型 "画图" 的常规思路,VEGA-3D 将冻结的视频扩散模型引入视觉流。为了彻底激活其内部的几何结构认知,研究团队通过在其前向过程中注入特定水平的噪声(Noise Injection),提取其在中间去噪阶段和中间网络层(如 DiT layer 20)的时空特征。此时的特征,完美平衡了底层纹理与高层抽象,蕴含着最纯粹的 3D 结构先验。

Figure 2 可视化证明,Wan2.1 在不同视角下展现出惊人的多视角几何一致性。结合 VEGA-3D,大模型的注意力图瞬间精准锁定了目标物体,彻底告别 "空间盲区"。

  1. Token 级自适应门控融合

连续的物理生成特征与离散的语义特征天然存在 "语义 - 几何鸿沟"。如果简单粗暴地相加,只会导致信号冲突。 VEGA-3D 独创了自适应门控融合机制:对于每一个空间 Token,网络会动态计算一个权重门控,让模型在回答 "这是什么"(依赖语义先验)和 "它在哪里"(依赖生成空间先验)时,自适应地调节两股特征的比例,实现真正的优势互补。

Figure 3VEGA-3D 极简而优雅的架构设计,即插即用,双流视觉编码。

深度剖析:为什么 "多视角一致性"

是解锁空间认知的密钥?

评价一个模型是否真正理解真实物理世界,关键在于其能否在不同视角下保持几何结构的一致性。为了揭示这一底层逻辑,我们对特征域进行了深入分析。

实验表明,多视角一致性得分与下游 3D 理解任务的归一化综合得分(NOS)呈现出极其显著的正相关。传统的判别式模型在应对 3D 任务时往往会遇到瓶颈:例如 DINOv3-Large 和 V-JEPA v2 的一致性得分分别为 61.90% 和 72.00%。即便是专门针对 3D 提取的判别模型 VGGT,其一致性得分也仅达到 77.21%。这说明传统的降维压缩过程不可逆地丢失了密集的物理与几何细节。

相反,以 Wan2.1 为代表的视频生成大模型展现出了降维打击般的空间理解力。Wan2.1-VACE 和 Wan2.1-T2V 的多视角一致性得分分别飙升至惊人的 97.04% 和 96.88%。这意味着,为了 "不穿帮" 地生成连贯视频,DiT 架构被迫在脑海中构建了极其鲁棒的 3D 物体结构。当 VEGA-3D 将这股强大的隐式先验释放出来时,它为多模态大模型提供了一个坚实的 "空间锚点",直接驱动了下游性能的暴涨。

Figure 4 多视角一致性得分与下游 3D 理解性能呈强正相关,DiT 架构的生成模型完胜传统判别式模型

实验结果:

依靠这套机制,VEGA-3D 展现出了出色下游任务统治力,并且这一切提升都不需要任何额外的 3D 标注数据:

  • 3D 场景理解全面领先:在 ScanRefer(视觉定位)、ScanQA(空间问答)等 5 个基准测试中,VEGA-3D 将原有基线模型(Video-3D LLM)的定位精度和准确率拉升至全新高度,ScanRefer Acc@0.5 从 51.7 大幅提升至 56.2。

  • 空间推理无死角:在专门诊断模型视觉 - 空间技能的 VSI-Bench 上,引入 VEGA-3D 后的 Qwen2.5VL-7B 在相对距离、相对方向和路线规划等子任务上获得一致性暴涨。

  • 赋能具身智能 (Embodied AI):更硬核的是,在 LIBERO 机器人仿真操作基准中,将生成先验注入到 OpenVLA 视觉流后,机器人在复杂物体交互和长视野(Long-horizon)任务上的成功率突破原有瓶颈,平均成功率达到 97.3%。

Figure 5 3D 场景理解中, ScanRefer 和 ScanQA 数据集等空间定位与问答任务全面领先

总结与展望:探索 3D 推理的下一个前沿

VEGA-3D 不仅仅是一个性能卓越的系统,它更向整个社区传递了一个重要的设计思路:大模型 3D 空间推理的下一个突破口,也许不在于继续堆叠海量且昂贵的 3D 数据,而在于如何释放生成式基础模型体内早已沉睡的 "物理先验"。作为一种高扩展性、数据高效的基础设施,随着未来视频生成模型(如 Sora、Wan 等)的进一步进化,VEGA-3D 的上限将被无限拉高。

相关推荐
机器之心1 小时前
超越VLA与世界模型,银河通用发布LDA,全谱系数据跑通Scaling Law
人工智能·openai
事变天下1 小时前
第四届超声医学青年学术会议,推出全新启元AI超声生态
大数据·人工智能
AI科技星1 小时前
ELN 升级:π 级数自动生成器全域数理架构
大数据·人工智能·python·算法·金融
多年小白1 小时前
日报 - 2026年4月28日(周二)
网络·人工智能·科技·深度学习·ai
极智视界1 小时前
分类数据集 - 棉花病虫害检测图像分类数据集下
人工智能·yolo·数据集·图像分类·算法训练·棉花病虫害检测
龙腾AI白云1 小时前
AI项目团队意见分歧?协调与决策方法
人工智能·pygame
Mr数据杨1 小时前
AIGC工具平台-Tauri2.x智能工具桌面介绍与使用
人工智能·aigc·tauri
IT观测1 小时前
电话机器人服务商选型指南:核心维度与实操解析
人工智能·机器人·语音识别
bryant_meng2 小时前
【Hung-yi Lee】《Introduction to Generative Artificial Intelligence》(11)
人工智能·深度学习·llm·speculative·预言家