论文解读(16)-3D城市理解

下面开始看3D城市方面

这是原文：

3D Question Answering for City Scene Understanding

(3D Question Answering for City Scene Understanding (arxiv.org))

摘要

目前对于3D模态的引入主要还是应用于室内和室外的活动（比如自动驾驶），因此3D辅助城市理解这块领域几乎是一片空白。所以就做了一个3D数据集和一种场景图增强的城市级理解方法（a Scene graph enhanced City-level Understanding method）

1. Intro

先讲了一下应用场景的不同，以前都是比较局部的，现在是针对城市这种宏观的概念

从两方面入手：

1）数据集：（City-3DQA）

包括城市级实例分割、场景语义提取、问答对构建

We realize data collection including City-level Instance Segmentation, Scene Semantic Extraction, and Question-Answer Pair Construction.

表示方式例子：

living building - left - business building
transportation building - usage - buying tickets

2）方法：a Scene graph enhanced City-level Understanding method (Sg-CityU)

Sg-CityU extracts the vision and language representation from point clouds and questions respectively. And then a city-level scene graph is constructed, which is encoded through graph neural networks

之后看图再详细讲这块

city scene understanding
3D multimodal question answering

3. 问题定义

尽量让输出在语义上接近真值

最终用图来表示地理的特征

4. 数据集

1）City-level Instance Segmentation：首先将城市图像进行语义分割

最后分为

i代表的是分割后的物体，x，y，z是坐标

2）Scene Semantic Extraction：

接下来，就是spartial information：

在两个物体之间加入位置信息：

然后位置信息应该有八种：: "front", "front-right", "right", "back-right", "front-left", "left", "back-left" and "back"

语义信息：

用这元组来表达

，

然后涉及五个方面：instance label, building category label, synonym label, location, and usage label

3）Question-Answer Pair Construction

用上述的信息和模版来进行填充：

5. Method

5.1 Multimodal Encoder

多模态的encoder
用的是votenet做的backbone

然后用bert去处理问题的特征

这块是spatial的嵌入

5.2 Fusion

最后是输出

总体感觉挺简单粗暴的，但是在融合方面挺有意思

6. 结果

因为之前没有在city这样的规模上进行类似的任务，所以比较的都是一些通用模型，或者indoor模型