Anywhere3D-Bench论文精读

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站

这篇论文 《Anywhere3D-Bench: A Holistic Benchmark for Multi-Level Visual Grounding in 3D Scenes》 提出并解决了一个当前3D视觉-语言模型研究中的关键问题。

一、论文提出的问题

现有3D视觉定位(3D Visual Grounding)研究和基准测试存在严重局限

  1. 局限于物体级别

    几乎所有现有方法(如ScanRefer、Nr3D)都只能定位物体,无法理解"物体之外的区域"(如空间、区域、物体部件)。

  2. 缺乏多层次的视觉定位能力

    人类可以自然地理解并定位:

    • 区域(Area):如"适合一起学习的区域"
    • 空间(Space):如"在床头柜上空余的位置放一个杯子"
    • 物体(Object):如"靠近沙发的椅子"
    • 部件(Part):如"拉开柜子的最上面抽屉"

    而现有模型和数据集几乎只覆盖物体级别。

  3. 现有模型在空间和部件级别上表现极差

    即使是当前最强的多模态大模型(如Gemini-2.5-Pro、o3),在空间级任务上准确率仅约30% ,部件级任务约40% ,远低于物体级(62%)和区域级(85%)。

二、论文提出的解决方案

1. 构建新的基准数据集:Anywhere3D-Bench

  • 包含 2,886 条自然语言描述 + 对应的3D边界框

  • 覆盖 4 个定位层级

    • Area(区域):如活动区、功能区
    • Space(空间):物体之间的空余空间、距离、轨迹
    • Object(物体):强调对物体大小、形状、间距的理解
    • Part(部件):如抽屉、灯罩、水箱等,包括移动后的部件位置
  • 数据来自ScanNet、MultiScan、3RScan、ARKitScenes等多个真实3D场景。

2. 设计严格的数据生成与标注流程

  • 使用 GPT-4o + 场景图 自动生成多样化描述。
  • 人工在3D场景中标注对应边界框,支持距离测量、边界框调整。
  • 通过人工验证保证每个描述唯一对应一个3D边界框。

3. 系统性评估现有模型

论文评测了三大类模型:

  • 纯文本LLM(如GPT-4.1、DeepSeek-V3)
  • 多模态MLLM(如Gemini-2.5-Pro、o3、Qwen2.5-VL)
  • 专门的3D视觉定位模型(如Chat-Scene、3D-VisTA)

并引入人类表现作为上界(整体准确率95%)。

4. 深入错误分析与模型对比

  • 将错误分为:
    • 视觉感知错误
    • 逻辑推理错误
    • 空间推理错误
  • 对比 推理型模型(thinking model)非推理型模型,发现推理型在空间定位上更优。

三、核心贡献总结

问题 解决方案
现有基准只覆盖物体级定位 提出首个跨4个层次的3D视觉定位基准
模型无法理解物体之外的区域 设计空间级(space-level)任务,包括距离、轨迹、常识空间
部件级定位能力差 引入部件移动、功能、关系等细粒度任务
缺乏系统性评估 全面评估LLM、MLLM、专用3D模型,并分析错误类型

开源数据集

https://anywhere-3d.github.io/

相关推荐
人工智能培训14 小时前
打造行业知识图谱三步走
大数据·人工智能·机器学习·3d·知识图谱·agent
智海深蓝15 小时前
数字孪生案例 | 某船舶重工集团研究所如何打造“节能减碳仿真可视化平台”
3d
code_pgf20 小时前
PointPillars 3D 目标检测详解
人工智能·目标检测·3d
jingling55521 小时前
从零到一:用 Aholo Viewer 在浏览器里渲染 3D 高斯泼溅小熊
linux·前端·ubuntu·3d
weixin_4516298421 小时前
【leaflet中实现区块hover突出的伪3d效果】
3d
深圳市机智人激光雷达21 小时前
时空解算与图优化:激光雷达 3D 建图的技术原理与实现流程
人工智能·3d·机器人·自动化·自动驾驶·激光雷达
海伯森技术21 小时前
海伯森3D线光谱共焦精密测量技术及产业化应用
大数据·人工智能·3d
Coovally AI模型快速验证21 小时前
上海 AI Lab联合发布无需人工标注的TrackRef3D:全自动3D指代分割,mIoU达38.8领跑SOTA
人工智能·3d
七77.21 小时前
【3D 场景生成】MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation
3d·世界模型
深圳市机智人激光雷达1 天前
技术筑牢安全冗余:激光雷达在自动驾驶高阶感知中的底层价值与范式演进
人工智能·安全·机器学习·3d·机器人·自动驾驶·无人机