Anywhere3D-Bench论文精读

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站

这篇论文 《Anywhere3D-Bench: A Holistic Benchmark for Multi-Level Visual Grounding in 3D Scenes》 提出并解决了一个当前3D视觉-语言模型研究中的关键问题。

一、论文提出的问题

现有3D视觉定位(3D Visual Grounding)研究和基准测试存在严重局限

  1. 局限于物体级别

    几乎所有现有方法(如ScanRefer、Nr3D)都只能定位物体,无法理解"物体之外的区域"(如空间、区域、物体部件)。

  2. 缺乏多层次的视觉定位能力

    人类可以自然地理解并定位:

    • 区域(Area):如"适合一起学习的区域"
    • 空间(Space):如"在床头柜上空余的位置放一个杯子"
    • 物体(Object):如"靠近沙发的椅子"
    • 部件(Part):如"拉开柜子的最上面抽屉"

    而现有模型和数据集几乎只覆盖物体级别。

  3. 现有模型在空间和部件级别上表现极差

    即使是当前最强的多模态大模型(如Gemini-2.5-Pro、o3),在空间级任务上准确率仅约30% ,部件级任务约40% ,远低于物体级(62%)和区域级(85%)。

二、论文提出的解决方案

1. 构建新的基准数据集:Anywhere3D-Bench

  • 包含 2,886 条自然语言描述 + 对应的3D边界框

  • 覆盖 4 个定位层级

    • Area(区域):如活动区、功能区
    • Space(空间):物体之间的空余空间、距离、轨迹
    • Object(物体):强调对物体大小、形状、间距的理解
    • Part(部件):如抽屉、灯罩、水箱等,包括移动后的部件位置
  • 数据来自ScanNet、MultiScan、3RScan、ARKitScenes等多个真实3D场景。

2. 设计严格的数据生成与标注流程

  • 使用 GPT-4o + 场景图 自动生成多样化描述。
  • 人工在3D场景中标注对应边界框,支持距离测量、边界框调整。
  • 通过人工验证保证每个描述唯一对应一个3D边界框。

3. 系统性评估现有模型

论文评测了三大类模型:

  • 纯文本LLM(如GPT-4.1、DeepSeek-V3)
  • 多模态MLLM(如Gemini-2.5-Pro、o3、Qwen2.5-VL)
  • 专门的3D视觉定位模型(如Chat-Scene、3D-VisTA)

并引入人类表现作为上界(整体准确率95%)。

4. 深入错误分析与模型对比

  • 将错误分为:
    • 视觉感知错误
    • 逻辑推理错误
    • 空间推理错误
  • 对比 推理型模型(thinking model)非推理型模型,发现推理型在空间定位上更优。

三、核心贡献总结

问题 解决方案
现有基准只覆盖物体级定位 提出首个跨4个层次的3D视觉定位基准
模型无法理解物体之外的区域 设计空间级(space-level)任务,包括距离、轨迹、常识空间
部件级定位能力差 引入部件移动、功能、关系等细粒度任务
缺乏系统性评估 全面评估LLM、MLLM、专用3D模型,并分析错误类型

开源数据集

https://anywhere-3d.github.io/

相关推荐
探物 AI11 天前
【3D·感知】从PointNet到PointPillars:如何让自动驾驶汽车“实时“看见3D世界?
3d·自动驾驶·汽车
苏州邦恩精密11 天前
GOM三维扫描在制造中的真实价值:让“修模”从经验动作变成数据动作
人工智能·科技·机器学习·3d·自动化·制造
YHHLAI11 天前
CSS 3D 硬核解析:四个属性手写旋转立方体
前端·css·3d
云飞云共享云桌面11 天前
传统工作站 vs 云飞云共享云桌面:制造业设计云桌面选型深度对比
运维·服务器·前端·网络·3d·架构·制造
LONGZETECH11 天前
无人机仿真教学软件选型实战:5 个硬核技术维度,避开实训建设踩坑
3d·无人机·交互·cocos2d
装不满的克莱因瓶12 天前
了解3D卷积原理——从空间感知到时空建模的深度学习核心算子
人工智能·pytorch·python·深度学习·机器学习·3d·ai
雪的季节12 天前
Qt Graphs 2D+3D介绍
qt·3d
CG_MAGIC12 天前
3ds Max材质编辑器:精简模式与Slate模式对比
3d·编辑器·材质·贴图·uv·建模教程
装不满的克莱因瓶12 天前
掌握3D CNN模型结构——从时空特征建模到视频理解与医学影像核心架构
人工智能·pytorch·python·深度学习·神经网络·3d·cnn
AniShort12 天前
AniShort携3D世界+3D导演台王炸组合AI短剧协作平台亮相2026横店AI短剧大会 近亿元融资赋能短剧工业化
人工智能·microsoft·3d