论文解读(16)-3D城市理解

下面开始看3D城市方面

这是原文:

3D Question Answering for City Scene Understanding

(3D Question Answering for City Scene Understanding (arxiv.org))

摘要

目前对于3D模态的引入主要还是应用于室内和室外的活动(比如自动驾驶),因此3D辅助城市理解这块领域几乎是一片空白。所以就做了一个3D数据集和一种场景图增强的城市级理解方法(a Scene graph enhanced City-level Understanding method)

1. Intro

先讲了一下应用场景的不同,以前都是比较局部的,现在是针对城市这种宏观的概念

从两方面入手:

1)数据集:(City-3DQA)

包括城市级实例分割、场景语义提取、问答对构建

We realize data collection including City-level Instance Segmentation, Scene Semantic Extraction, and Question-Answer Pair Construction.

表示方式例子:

  • living building - left - business building
  • transportation building - usage - buying tickets

2)方法:a Scene graph enhanced City-level Understanding method (Sg-CityU)

Sg-CityU extracts the vision and language representation from point clouds and questions respectively. And then a city-level scene graph is constructed, which is encoded through graph neural networks

  • 之后看图再详细讲这块
  • city scene understanding
  • 3D multimodal question answering

3. 问题定义

  • 尽量让输出在语义上接近真值
  • 最终用图来表示地理的特征

4. 数据集

1)City-level Instance Segmentation:首先将城市图像进行语义分割

最后分为

  • i代表的是分割后的物体,x,y,z是坐标

2)Scene Semantic Extraction:

接下来,就是spartial information:

在两个物体之间加入位置信息:

然后位置信息应该有八种:: "front", "front-right", "right", "back-right", "front-left", "left", "back-left" and "back"

语义信息:

用这元组来表达

然后涉及五个方面:instance label, building category label, synonym label, location, and usage label

3)Question-Answer Pair Construction

用上述的信息和模版来进行填充:

5. Method

5.1 Multimodal Encoder
  • 多模态的encoder
  • 用的是votenet做的backbone

然后用bert去处理问题的特征

  • 这块是spatial的嵌入
5.2 Fusion
  • 最后是输出

总体感觉挺简单粗暴的,但是在融合方面挺有意思

6. 结果
  • 因为之前没有在city这样的规模上进行类似的任务,所以比较的都是一些通用模型,或者indoor模型
相关推荐
数智工坊15 小时前
【SAM-DETR论文阅读】:基于语义对齐匹配的DETR极速收敛检测框架
网络·论文阅读·人工智能·深度学习·transformer
动恰客流管家1 天前
动恰3DV3丨2026年实体商业数字化转型:客流数据是第一生产力——全场景智慧客流解决方案
大数据·人工智能·3d·性能优化
charlie1145141911 天前
通用GUI编程技术——图形渲染实战(四十)——深度缓冲与3D变换:从平面到立体
开发语言·c++·平面·3d·图形渲染·win32
cy_cy0022 天前
互动滑轨屏如何优化参观动线?
科技·3d·人机交互·交互·软件构建
张较瘦_2 天前
[论文阅读] AI + 软件工程 | 突破LLM代码生成瓶颈:编程知识图谱(PKG)让检索增强更精准
论文阅读·人工智能·软件工程
Coovally AI模型快速验证2 天前
CVPR 2026|PanDA:首个多模态3D全景分割的无监督域适应框架
人工智能·3d·视觉检测·工业质检
AGV算法笔记2 天前
CVPR 2024顶级SLAM论文精读:SplaTAM如何用3D高斯实现稠密RGB-D SLAM?
深度学习·3d·机器人视觉·slam·三维重建
hhhhhh_we2 天前
皮肤人格的工程化实现:预颜美历如何用3D点云与循环神经网络构建数字孪生人格
图像处理·人工智能·rnn·深度学习·神经网络·3d·产品运营
Coovally AI模型快速验证2 天前
YOLO26仓储检测实战:物体定位+有向边界框+姿态估计+实例分割,一个模型盯住整个仓库
大数据·人工智能·3d·视觉检测·工业质检
传说故事2 天前
【论文阅读】HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents
论文阅读·人工智能·机器人·具身智能