51c视觉~3D~合集10

我自己的原文哦~ https://blog.51cto.com/whaosoft143/14345148

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#4DWorldBench

4DWorldBench 如何实现3D/4D世界生成模型的全面可信评价?

现状与挑战:从视频生成到"世界模拟"的评估断层

目前,世界生成模型(World Generation Models)已成为多模态智能的核心研究方向。与侧重像素真实度的传统 2D 视频生成不同,世界模型更强调生成内容的物理一致性、4D 空间时序连贯性以及对多模态指令的精准响应。

然而,现有的评估基准面临以下挑战:

  • 评估维度失衡:现有基准往往在单一框架下难以平衡感知质量、物理真实感与4D一致性,无法满足世界模型全维度的评估需求。
  • 物理规律评估的局限性:物理评估通常依赖手工定义的模板,缺乏语义灵活性。
  • 跨模态评估困难:缺乏一个统一的框架来比较文本、图像、视频驱动的生成模型。

为了解决这些问题,4DWorldBench应运而生,提供了一个通用的、具备物理感知的3D/4D世界生成评估框架。

图1 4DWorldBench 框架概览

评估方法详析:自适应混合评估机制

4DWorldBench 的核心竞争力在于其自适应混合评估管道(Adaptive Hybrid Pipeline),它巧妙地平衡了底层视觉特征与高层逻辑推理:

  1. 物理真实性(Physical Realism)

主要基于两个核心原则:

  1. 基于字幕推理进行评估:我们将输入条件(如图像、视频)和生成的视频转化为文字描述,利用大语言模型(LLM)通过基于字幕的推理来评估物理一致性,而不是直接通过视频进行观察。这种方法能够更精确地理解物理过程。
  2. 自适应选择评估维度:根据每个生成场景的语义,系统会自适应选择与物理一致性相关的评估维度,确保评估符合场景的实际需求。

在物理真实性评估中,我们首先将输入条件和生成的视频转化为文本描述,为后续的物理推理提供统一基础。接着,基于输入条件和物理法则,生成一系列诊断性问题,以评估视频的物理合理性。最后,将生成的视频描述和问题输入大语言模型,模型通过与预期物理结果的对比,得出物理一致性的评分。

  1. 条件-4D 对齐(Condition Alignment)

条件-4D对齐评估框架旨在衡量生成视频与指定条件的一致性,确保其符合预定的故事情节(事件)、角色运动(运动)、属性和场景,具体我们分为Event Control, Scene Control, Attribute Control, Relationship Control以及Motion Control。该评估框架基于大语言模型(MLLM),通过三步流程进行量化:首先将输入多模态条件转化为文本描述;接着,生成一系列诊断性问题,涵盖物体属性、空间关系、场景细节、运动模式等方面;最后,通过大语言模型对问题进行回答,并将其与预期答案进行比较,得出最终的对齐评分。与物理评测不同,这一评估关注的是语义和场景一致性,而非物理现实的约束。评分越高,表示生成的视频与输入条件的符合度越强。

  1. 4D 一致性 (4D Consistency)和感知质量(Perceptual Quality)

4D一致性 评估框架关注生成视频在多个视角、运动状态和时间维度上的稳定性与一致性。通过引入时间平滑 方法,减少FPS变化对几何一致性的影响,确保长时间序列或不同帧率下的稳定性。MLLM-as-Judge 被用来评估运动一致性,避免微小位移导致不合理的基于光流相似度的评分,从而提高运动的合理性。同时,Gram矩阵特征用于衡量生成视频的风格一致性,确保视觉风格的连贯性。

感知质量 方面,4DWorldBench使用CLIPIQA+评估每帧视频的清晰度和视觉细节,保证空间质量;FastVQA用于检测视频的时序稳定性,确保时间维度上的一致性。对于3D纹理质量,使用mPLUG-Owl3对渲染细节进行评分,确保纹理效果与真实世界一致。

实验结果

我们在 4DWorldBench 上评估了当前主流的生成模型,包括 Image-to-4D (如 DiffusionAsShader)、Video-to-4D (如 ReCamMaster)、Text-to-4D (如 4Dfy) 等。

  1. 主流模型全维度评测

图2 不同世界生成模型在五大维度的性能雷达图

  1. 模型性能排行榜

表1 4D生成模型在各个维度上的评估结果(摘录)

表2 3D生成模型在各个维度上的评估结果(摘录)

实验观察 1:风格一致性与场景控制已取得显著进展

大多数模型在风格一致性(Style Consistency)、场景控制(Scene Control)和属性控制(Attribute Control)方面已经取得了较高的分数 。在 3D 生成和Video- 4D任务中,视角一致性(Viewpoint Consistency)也得到了较好的处理 。

实验观察 2:时序推理、运动控制与物理真实性仍是共同瓶颈

  • 运动相关指标的差距:包括运动对齐(Motion Control)、动力学(Dynamics)和运动一致性(Motion Consistency)在内的指标,与理想水平之间存在明显差距 。
  • 物理定律理解不足:对于 4D 生成而言,光学(Optics)和热力学(Thermal)上表现平平 。这暗示当前架构在复杂的视角和光照变化下,难以真正理解物理定律 。
  • 文本驱动的局限性:在Text- 4D任务中,事件控制(Event Control)和关系控制(Relationship Control)能力较弱 。这反映出将丰富的文本描述转化为连贯的时间交互仍然是一个悬而未决的问题 。

结语

在这项工作中,我们推出了 4DWorldBench,旨在填补当前世界模型评估中的空白。通过整合 LLM 的逻辑推理能力和 MLLM 的视觉感知能力,我们实现了一个对物理规律敏感、对条件模态自适应的综合评估框架。

我们的实验揭示了当前模型在理解复杂物理交互方面的局限性,并证明了视频条件输入在保持物理一致性方面的优势。我们希望 4DWorldBench 能成为社区的标准化工具,加速从"视觉生成"向真正的"世界生成"过渡,推动更连贯、可控且符合物理规律的虚拟世界构建。

更多实验细节与排行榜信息,请访问:

...

#N3D-VLM

赋予VLM原生3D感知力!腾讯&港科大N3D-VLM登场,六倍数据规模铸就空间推理新SOTA

大家好,今天想和大家聊一篇非常有趣的新工作,它来自腾讯AI Lab、香港科技大学、香港中文大学、浙江大学和南京大学的研究者们。这篇名为 《N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models》 的论文,旨在解决一个当前多模态大模型(VLM)普遍存在的痛点:虽然能看懂2D图像,但缺乏真正的3D空间感知能力

简单来说,就是模型知道图片里有只猫、有张桌子,但对于"猫在桌子下多深的位置?"或者"从另一个角度看,猫和桌子谁更靠前?"这类问题,它们往往就"晕头转向"了。

为了解决这个问题,研究者们提出了一个名为 N3D-VLM 的统一框架。这个名字很直白,N3D 就是 Native 3D(原生3D) 的缩写,意在让VLM具备与生俱来的3D感知能力,而不是仅仅在2D图像上做文章。

VLM的"3D空间感"缺失症

不知道你有没有感觉,现在的大模型越来越像一个"无所不知"的大脑,但这个大脑似乎有点"平"。它能识别万物,能描述复杂的图像内容,但在需要深度和空间想象力的任务上,总显得有些力不从心(这也是为什么近期频繁看到空间推理相关论文的原因)。

目前的VLM,在处理3D空间问题时,主要有几类做法:

  1. 依赖外部"拐杖":借助专门的3D模型(如Mask3D)来预先提取场景中的3D边界框或分割掩码,再把这些信息喂给大模型。这种方式不够优雅,且严重依赖外部模块的性能。
  2. 假设"理想世界":直接假设已经拿到了物体的3D位置信息,然后在此基础上进行推理。这在真实场景中显然是不现实的。
  3. 点云"硬核"理解:直接处理点云数据来定位物体,但这类方法通常局限于特定场景(如室内),物体类别也有限,难以泛化。

这些方法要么流程繁琐,要么适用范围狭窄,始终没能让VLM拥有一个统一、内化的3D世界观。而N3D-VLM的出现,正是要打破这一僵局。

N3D-VLM的两大"杀手锏"

N3D-VLM的核心思想可以概括为两点:一个创新的数据生产线一个"先定位,再推理"的模型架构

杀手锏一:自动化"升维"数据工厂

训练强大的3D感知模型,最缺的是什么?数据,尤其是大规模、多样化的3D标注数据。

手动标注3D数据成本极高,导致现有数据集要么场景单一,要么物体类别稀少。N3D-VLM的作者们另辟蹊径,设计了一套可扩展的数据构建流程(Data Construction Pipeline),堪称一个"3D数据工厂"。

这个流程的核心是"升维":

  1. 利用现有2D宝库:从海量的2D检测数据集(如Objects365、COCO等)出发,这些数据集拥有丰富的物体类别和场景。
  2. 度量深度估计 (Metric Depth Estimation) :对每张2D图片,论文特意选用了 Metric3D v2 这种具备度量能力的深度估计模型。与普通的深度估计(如Depth Anything)不同,Metric3D能提供真实的物理尺度信息并恢复相机内参,这是构建精确3D坐标系的关键。配合SAM等分割模型,可以得到每个物体的精确掩码。
  3. 2D到3D的"魔法":结合度量深度图和相机内参,可以将带有2D边界框和分割掩码的物体,"提升"到3D空间中,估算出它们的物理3D边界框。

通过这种方式,研究者们以极低的成本,构建了一个庞大的3D标注数据库。论文提到,其规模比目前最大的单图像3D检测数据集还要大六倍以上 。不仅如此,他们还基于这个数据库,自动生成了用于 3D检测3D定位(Grounding)3D空间推理问答 的训练数据,实现了从数据源头上的"自给自足"。

杀手锏二:"两步走"的级联式推理架构

有了充足的"弹药",模型设计就水到渠成了。N3D-VLM采用了一种级联式的推理过程,非常符合人类的直觉:先看清物体在哪,再思考它们的关系

这里需要特别说明的是,N3D-VLM所谓的"原生(Native)",并非指它像处理点云那样直接处理3D数据格式,而是指其模型架构中直接嵌入了深度位置编码 ,且输出端不再是传统的2D像素坐标,而是直接输出包含深度信息的结构化数据

整个模型以Qwen2.5-VL为基础,其工作流程如下:

  1. 输入:模型接收一张RGB-D图像(深度图D由Metric3D生成)和用户的文本问题。
  2. 特征融合(注入3D感知) :图像经过视觉编码器提取特征。关键在于,模型引入了深度感知位置编码(Depth-aware Positional Encoding) ,将点云坐标信息与视觉特征融合。这一步将原生的3D空间信息注入到了模型的"视野"中
  3. 第一步:原生3D定位 (Native 3D Grounding) :模型首先执行定位任务。当用户问"图片中的鹅在哪里?"时,模型直接输出一系列结构化的文本,精确描述每只鹅的空间位置(即 ,其中 为像素坐标, 为深度)。虽然模型底层预测的是像素空间的中心点,但结合深度和相机参数,这些信息可以被确定性地转换为物理世界中的3D坐标 。
  4. 第二步:基于定位结果的空间推理:在获得了场景中所有相关物体的精确3D坐标后,模型再进行下一步的推理。例如,回答"哪只鹅离镜头最远?"或者"计算一下最左边和最右边两只鹅之间的水平距离?"。

这种显式的、分步走的策略,使得整个推理过程高度可解释且结构化,避免了传统端到端模型那种"黑箱操作"带来的不可靠性。

实验效果:不仅看得准,还能想得对

N3D-VLM在多个基准测试中都取得了惊人的成果。

3D定位能力:指哪打哪,精准无误

在3D定位(Grounding)任务上,研究者们在RefCOCO等多个数据集上进行了评估。无论是对比投影到2D的IoU(交并比),还是直接在3D空间中的IoU和中心点偏移,N3D-VLM都以巨大优势胜出。

从上方的表格可以看到,在3D IoU指标上,N3D-VLM-7B达到了0.48,而强大的Qwen3-VL-30B-A3B也仅有0.27。

为什么参数量更小的 N3D-VLM 能"吊打"参数量更大的 Qwen3-VL?

这主要是因为 Qwen3-VL 虽然强大,但它仅靠 RGB 图像进行推理,只能"脑补"深度信息。而 N3D-VLM 引入了显式的深度图输入和深度位置编码,并巧妙地让模型预测它最熟悉的像素坐标 加上深度 。这种设计既保留了 VLM 强大的 2D 感知优势,又注入了真实的 3D 几何信息,从而实现了降维打击。

下面的定性对比图更直观地展示了这一点。无论是室外场景的汽车,还是室内场景的枕头,N3D-VLM(红色框)都比Qwen3-VL等模型更紧密地贴合真实物体(绿色框)。

3D空间推理:超越GPT-4o,实现SOTA

在一个好的3D定位之上,空间推理能力也得到了质的飞跃。为了更全面地评估模型,研究者们还构建了一个新的、更复杂的基准 N3D-Bench。该基准包含2000个问题,覆盖264个物体类别,并且首次引入了视角变换和思想链(CoT)推理。

在N3D-Bench以及SpatialRGPT-Bench等多个推理基准上,N3D-VLM-7B全面超越了包括GPT-4o、Gemini-2.5-Flash和Qwen3-VL-8B在内的所有对手,成为了新的SOTA(State-of-the-Art)

特别是在需要精确计算的数值问题上,N3D-VLM的优势尤为明显。例如,在N3D-Bench上,它的数值问题准确率达到了惊人的92.1%,而其他模型最高也只有50.4%。这充分证明了"先精准定位(获取3D坐标),再定量计算"这一策略的有效性。

下面的例子生动地展示了N3D-VLM的强大推理能力。面对"如果从对面看,哪个背包在右边?"这种需要虚拟视角转换的问题,GPT-4o和Qwen3-VL都答错了,而N3D-VLM凭借其强大的3D空间感给出了正确答案。

一点思考

N3D-VLM的成功,给我们带来了两点重要的启发:

  1. 数据依然是王道:使用已有成熟模型加工、生成数据是一条低成本高收益的路径。N3D-VLM巧妙地利用现有2D数据配合 Metric3D 进行"升维"构建3D训练集,这种思想在其他领域或许同样适用。
  2. 回归本源,显式建模:当模型在某个复杂任务上表现不佳时,与其设计一个更深、更复杂的端到端"黑箱",不如回归任务的本质,将其分解为更清晰、可控的子步骤。N3D-VLM将空间理解任务分解为"定位"和"推理",让模型的每一步行动都有据可依,最终实现了更鲁棒、更精确的性能。

官方发布的效果展示:

,时长01:14

作者已经把这项工作的推理代码和权重发布了,强烈推荐大家试用!这是目标检测与场景理解在VLM时代的又一次升级!

...

相关推荐
一招定胜负5 小时前
神经网络入门
人工智能·深度学习·神经网络
clarance20155 小时前
2025主流BI工具可信能力评估报告:从合规到智能的架构解析
数据库·人工智能·信息可视化·架构·数据挖掘·数据分析
1+2单片机电子设计5 小时前
基于 STM32 的多传感器融合人体健康监测系统设计与实现
人工智能
whaosoft-1435 小时前
51c自动驾驶~合集63
人工智能
小风吹啊吹~5 小时前
部署日志2025.12.15
人工智能
爱写代码的小朋友5 小时前
生成式人工智能赋能跨学科主题学习的范式重构与实践路径研究
人工智能·学习·重构
Axis tech5 小时前
Manus数据手套:从人类手部运动到机器人灵巧手实时映射
人工智能
gxdtgsy5 小时前
国内外空间三维扫描测量仪器产品性能解析:六款旗舰产品如何定义空间三维数字化
人工智能
deephub5 小时前
Pydantic-DeepAgents:基于 Pydantic-AI 的轻量级生产级 Agent 框架
人工智能·python·深度学习·大语言模型·ai-agent