【论文阅读】CompletionFormer:深度完成与卷积和视觉变压器
文章目录
CompletionFormer: Depth Completion with Convolutions and Vision Transformers
给定稀疏深度和相应的RGB图像,深度补全旨在将稀疏测量值在整个图像中进行空间传播,以获得密集的深度预测
尽管基于深度学习的深度补全方法取得了巨大的进步,但卷积层或图模型的局部性使得网络难以对像素之间的长期关系进行建模
虽然最近完全基于transformer的体系结构在全局接受场方面取得了令人鼓舞的结果,但由于其局部特征细节的恶化,与发达的CNN模型相比,性能和效率差距仍然存在
但由于其局部特征细节的恶化,与发达的CNN模型相比,性能和效率差距仍然存在
联合卷积注意和变形块(Joint Convolutional Attention and Transformer block, JCAT)
作为构建金字塔结构深度补全模型的基本单元
在室外KITTI深度 和 室内NYUv2数据集
一、介绍
主动深度传感在性能上取得了显著的进步,并在自动驾驶和增强现实等众多应用中展示了其实用性
雷达传感器的扫描线数量有限,有效/正确深度点之间的距离仍然可能很远
深度补全技术[2,16,26,31]近年来受到了广泛关注,其目标是通过稀疏深度测量和相应的RGB图像(即RGBD)补全和重建整个深度图
对于深度补全,一个关键是获得相邻像素之间的深度亲和力,以便将可靠的深度标签传播到周围环境
稀疏深度可能由于噪声甚至深度传感器没有返回测量值而高度稀疏
所有这些属性都要求网络具有捕获像素之间局部和全局相关性的潜力。
目前的深度补全网络通过广泛使用的卷积神经网络(cnn)或图神经网络来收集上下文信息
GuideFormer采用了完全基于transformer的架构来实现全局推理
尽管可靠的深度点可以分布在任何距离上,但探索这两种不同范例(即cnn和Transformer)的优雅集成还没有实现
提出CompletionFormer,这是一种金字塔结构,将基于cnn的局部特征与基于transformer的全局表示相结合
面临两个缺口:
- RGB和深度输入之间的内容缺口
- convolution和Transformer之间的语义差距
我们建议在网络早期嵌入RGB和深度信息
并且可以在整个网络中聚合多模态信息。考虑到卷积和Transformer的融合,以往的工作从几个不同的角度对图像分类和目标检测进行了探索
我们将卷积注意和Transformer纳入一个块中,并将其作为基本单元来构建我们的多尺度网络
使Transformer层更加轻量级。对于与卷积相关的部分,常见的选择是使用普通卷积,如倒残差块
卷积和Transformer之间巨大的语义差距以及Transformer丢失的局部细节要求卷积层增加自己的容量来补偿它。根据这一原理,我们进一步引入空间和通道注意来增强卷积
信息交换和融合有效地发生在我们的网络的每一个块
贡献:
- 我们建议将视觉转换器与卷积注意层集成到一个块中进行深度补全
- 引入了一个单分支网络结构,即CompletionFormer
- 与纯基于Transformer的方法相比,效率显着提高
- CompletionFormer在深度补全方面有了很大的改进,特别是在实际应用中经常出现的深度非常稀疏的情况
我们模型的深度为 3,3,4,1 的11层结构,在补全深度上应该具有很好的效果
二、联系工作
深度完成
随着有源深度传感器的出现,场景深度补全已成为计算机视觉中的一项基本任务
全卷积网络已经成为当前最先进的深度完成的原型架构
在监督或自监督框架内预测密集输出。为了保持给定稀疏深度下的准确测量值,并对最终深度图进行细化
但性能受到卷积U-Net骨干网容量的限制
增强了U-Net骨干网对本地和全局连贯上下文信息的表达能力,证明在提高性能方面是有效的
Vision Transformer
Transformer 首先被引入到自然语言处理中
语义分割等领域也显示出巨大的潜力
而是探索将Transformer和convolution结合到一个block中进行深度补全
同时使用卷积和Vision Transformer的MPViT[12]和CMT[6])相比,
我们提出的联合卷积关注和Transformer块在公共基准测试中实现了更高的效率和性能
三、方法
我们的目标是在深度补全任务中引入局部特征和全局上下文信息,以便从任何距离收集可靠的深度提示
使用我们的JCAT块构建的主干进行多尺度特征提取,解码器提供全分辨率特征用于初始深度预测
RGB and Depth Embedding
多模态信息融合具有以下几个优点:
- 使每个像素的特征向量同时具有RGB和深度信息,使得深度无效的像素仍然有机会通过可靠的深度测量根据外观相似性进行校正
- 以下网络只需要一个分支,实现效率高。因此,我们首先使用两个单独的卷积对输入的稀疏深度图S和RGB图像i进行编码,输出经过另一个卷积层连接并进一步处理,得到包含两个源内容的原始特征
联合卷积注意与变压器编码器
如何在像素之间建立连接来实现可靠像素的深度传播,同时避免不正确的像素,已经得到了广泛的研究
基于注意力的图传播已成为这一目的的主要操作
MPViT和CMT是自注意与卷积相结合的两种具有代表性的最先进网络
利用空间和通道的关注增强了基于卷积的路径的表示能力
联合卷积注意与变形块
我们的JCAT块可以以并行或级联的方式组织
它包含一个具有多头机制的空间减少注意(SRA)层和一个前馈层(FNN)
允许不同尺度的特征表示有效地相互通信。
在第一阶段,为了降低Transformer层带来的计算成本和内存开销,我们使用ResNet34中的一系列BasicBlocks进行处理
在接下来的四个阶段,我们将介绍我们提出的JCA T块作为框架设计的基本单元
给定来自补丁嵌入模块或最后一个联合块的输入特征F∈R H~i~×W~i~×C(第i阶段特征的高度和宽度分别为H~i~和W~i~
一步减小K和V的空间尺度以减少内存消耗,然后进行自注意:
SPN的细化和损失函数
考虑到稀疏输入经过U-Net后可能不能很好地保留准确的深度值,空间传播网络已成为最终细化的标准操作
增强的U-Net骨干网,网络能够提供良好的深度亲和力
针对cspn++消耗较多的计算成本,我们采用非局部空间传播网络[进行进一步细化
d表示原始深度的保留程度
解码器还输出亲和矩阵w,并由解码器预测的置信度映射进行调制,以防止不太自信的像素传播到邻居中,无论亲和度有多大
采用L1和L2联合损失来监督网络训练
四、实验结果
NYUv2数据集:
- 在464个室内场景中捕获的RGB和深度图像组成
- 按照之前深度补全方法的类似设置
- 训练集中均匀采样的50,000张图像上进行训练
- 测试集中的654张图像上进行测试以进行评
KITTI深度补全(DC)数据集:
- 包含86 898个训练数据,其中1 000个用于验证,1 000个用于无ground truth的测试
- V elodyne HDL-64e获得的原始深度图是稀疏的,大约覆盖5.9%像素
- 密集的地面真相是通过将11个连续时间帧的激光雷达扫描收集到一个帧中生成的,产生了近30%的注释像素