论文阅读：Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data

摘要

自动驾驶汽车的图像到雷达自我监督蒸馏。

在自动驾驶中两项重要任务：分割或检测稀疏激光雷达点云目标（使车辆在3D环境中安全运行）。在3D语义分割或目标检测中，性能最好的方法依赖于大量带标注数据（注释3D激光雷达数据既复杂又昂贵）。论文提出一种自监督预训练方法 ，适用于自动驾驶数据的3D感知模型。即，利用自动驾驶设备中同步和校准的图像和激光雷达传感器的可用性，将自监督的预训练图像表征蒸馏到3D模型中（不需要任何点云或图像标注）。

方法关键是使用超像素（superpixel），用于在视觉相似区域中池化3D点特征和2D像素特征，然后训练一个3D网络进行自监督任务，再匹配池化点特征与相应的池化图像像素特征。通过超像素获得的对比区域优势在于：

将视觉上相干区域的像素和点组合在一起，可以产生更具意义的对比任务，从而产生非常适合3D语义分割和3D目标检测的特征；
所有不同区域在对比损失中权重相同，与这些区域中采样的3D点数量无关；
减轻由于不同传感器之间遮挡而导致的点和像素不正确匹配所产生的噪声。在自动驾驶数据集上的大量实验表明，我们的图像到激光雷达蒸馏策略能够产生良好的语义分割和目标检测任务的3D表征。

Motivation

对三维激光雷达点云进行标注是一项耗时耗力的任务；
目前的SSL方法多适用于室内密集点云，如PointContrast；
自动驾驶汽车装置中同步和校准的多模态数据的可用性。

整体架构流程

利用自动驾驶汽车的同步和校准的摄像头和激光雷达传感器将自我监督的预训练图像表示提取到3D网络中。这个3D网络就是实际需要得到的表征，可以很好地转移到2D中各种复杂的下游任务中，通常超过监督预训练（实现无需标注和少量标注）。即，自我监督的2D到3D表征蒸馏，SLidR。SLidR 将预训练和固定 2D 网络的知识提炼成一个 3D 网络。它使用超像素将视觉上相似区域的特征汇集在一起，无论是在图像上，还是在通过超像素反投影的点云上。超像素驱动的对比损失对齐池化点和图像特征。如图所示：

对雷达数据和相机的图像数据进行超像素分割得到超像素，经过点云到图像的一个反投影可以得到点与像素的映射关系，且得到superpoint与superpixel对应关系，然后图像数据经过预训练的2D网络再经过一个project head与雷达数据经过3D网络，再经过一个projection head，这样得到的就是相同维度的特征，再经过一个平均池化，就可以进行对比损失优化。（来自于： $论文阅读$ Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data - 知乎 (zhihu.com)）

流程如下图所示，图像经过超像素分割得到超像素，且反投影到点云上，然后图像经过2D网络（先经过预训练网络再经过一个projection head），然后进行池化；点云数据经过3D网络（先预训练然后经过一个projection head），然后进行池化。这个时候就得到superpixel特征和superpoint特征，然后计算损失loss，匹配superpoint与其对应的superpixel，从而联合训练3D网络和两个head的参数。3D网络的backbone用于迁移到下游任务。

技术细节

雷达和图像数据的同步

对于某一个场景的t0时刻获取得到的点云数据：

与之对应的一个相机获取得到图像数据：

通过一个mapping公式进行同步：

小结

提出基于超像素（superpixel）到超点（superpoint）的对比损失和精心设计的图像特征上采样架构（即将strided convolution替换为dilated convolution）的自监督2D-3D表示蒸馏，该方法允许在不改变网络结构以及不影响结果的情况下提取高分辨率图像特征。这种方法称为SLidR，Superpixel-driven Lidar Representations。这是一种自我监督的图像到图像到 Lidar 蒸馏方法，用于处理同步激光雷达和相机数据，通常在应用于自动驾驶。SLidR 产生了强大的点云表示，这些表示可以很好地转移到多个任务和数据集上，超过了相关的最先进方法。

首次面向自动驾驶数据的自监督图像到激光雷达的表示蒸馏问题的研究。在论文选取评估设置中，image-to-Lidar pre-training strategy超过了SOTA的3D self-supervised pre-training方法和2D-to-3D distillation方法（设计用于捕捉室内场景中的密集点云）。