下面开始看3D城市方面
这是原文:
3D Question Answering for City Scene Understanding
(3D Question Answering for City Scene Understanding (arxiv.org))
摘要
目前对于3D模态的引入主要还是应用于室内和室外的活动(比如自动驾驶),因此3D辅助城市理解这块领域几乎是一片空白。所以就做了一个3D数据集和一种场景图增强的城市级理解方法(a Scene graph enhanced City-level Understanding method)
1. Intro
先讲了一下应用场景的不同,以前都是比较局部的,现在是针对城市这种宏观的概念
从两方面入手:
1)数据集:(City-3DQA)
包括城市级实例分割、场景语义提取、问答对构建
We realize data collection including City-level Instance Segmentation, Scene Semantic Extraction, and Question-Answer Pair Construction.
表示方式例子:
- living building - left - business building
- transportation building - usage - buying tickets
2)方法:a Scene graph enhanced City-level Understanding method (Sg-CityU)
Sg-CityU extracts the vision and language representation from point clouds and questions respectively. And then a city-level scene graph is constructed, which is encoded through graph neural networks
- 之后看图再详细讲这块
2. Related Work
- city scene understanding
- 3D multimodal question answering
3. 问题定义
- 尽量让输出在语义上接近真值
- 最终用图来表示地理的特征
4. 数据集
1)City-level Instance Segmentation:首先将城市图像进行语义分割
最后分为
- i代表的是分割后的物体,x,y,z是坐标
2)Scene Semantic Extraction:
接下来,就是spartial information:
在两个物体之间加入位置信息:
然后位置信息应该有八种:: "front", "front-right", "right", "back-right", "front-left", "left", "back-left" and "back"
语义信息:
用这元组来表达
,
然后涉及五个方面:instance label, building category label, synonym label, location, and usage label
3)Question-Answer Pair Construction
用上述的信息和模版来进行填充:
5. Method
5.1 Multimodal Encoder
- 多模态的encoder
- 用的是votenet做的backbone
然后用bert去处理问题的特征
- 这块是spatial的嵌入
5.2 Fusion
- 最后是输出
总体感觉挺简单粗暴的,但是在融合方面挺有意思
6. 结果
- 因为之前没有在city这样的规模上进行类似的任务,所以比较的都是一些通用模型,或者indoor模型