ICCV 2023 | 克服域差异:基于事件相机的自监督预训练策略

论文:《Event Camera Data Pre-training》

链接:arxiv.org/abs/2301.01...

代码:github.com/Yan98/Event...

背景

事件相机(Event Camera)是一种新型传感器。不同于传统的RGB相机记录的是场景的像素亮度,输出稠密、低频的图像帧,事件相机记录的是像素亮度的变化,输出稀疏、高频的事件流。与RGB相机相比,事件相机具有高的动态范围和时间分辨率,并且对光照变化和运动模糊具有鲁棒性等优势,在模式识别、同步定位与建图(SLAM)和场景理解等应用领域拥有出色的表现。

事件相机虽然也从基于图像帧的深度学习方法中得到启发,但由于缺少标准的数据集,自身进展仍受到阻碍。在小数据集的领域现状下,自监督学习框架是解决途径之一。然而,目前针对稀疏事件的自监督学习(SSL)范式的研究较少。

虽然在自监督学习中,使用RGB图像进行预训练已经取得了重大进展。然而,在事件相机数据上复制成功并非易事,因为RGB图像和事件数据之间存在域差距。RGB图像记录场景的所有像素强度,并且在空间上是密集的,而事件数据仅记录场景变化,并且是空间稀疏的。

因此,本文研究基于事件相机数据的预训练问题。我们的模型以自监督的方式,只使用成对的事件数据和RGB图像,进行预训练。用户可以将我们预先训练好的模型转移到不同的下游任务中。

主要贡献

1)对于SSL框架中的网络训练,图像增强(例如,高斯模糊、ColorJitter、RandomResizedCrop)是最重要的部分之一。稀疏事件相机数据通常可以表示为事件图像。人们可能会直接错误地对事件图像进行这些增强,例如,模糊二进制事件图像(0/1值像素)会生成无意义的事件图像。相反,我们研究了如何在转换为事件图像之前执行事件数据增强。

2)我们把学习问题表述为对比学习任务。以事件图像作为输入,可以直接执行随机掩蔽策略来对固定数量的事件补丁进行采样,以鼓励模型捕捉空间布局并加速训练。然而,事件图像在空间上是稀疏的,并且随机掩蔽将生成无信息的补丁,导致训练不稳定。为了缓解这个问题,我们提出了一种条件掩蔽策略来对信息补丁进行采样。

3)通过事件补丁,我们能够学习有区别的事件embedding ,即从相似的事件图像中提取embedding ,同时从不同的事件图像中将embedding 推开。令人惊讶的是,我们发现在事件embedding 空间中简单地执行度量学习会导致模型collapse,产生过多的相似embedding 。这是事件图像的空间稀疏性导致的。为了解决这个问题,我们发现来自成对RGB图像的embedding 可以用作regularizer,并且提出了一个embedding projection loss来解决collapse。

4)对于成对的事件数据和RGB图像,我们还旨在将匹配对的embeddings 拉到一起。这是因为有许多经过良好预训练的RGB网络可用,并且事件图像的信息量不如其配对的RGB图像。因此,RGB网络充当了我们事件网络的老师,我们提出了一种probability distribution alignment loss。

我们在标准事件数据集中实现了最先进的性能。

方法

更多细节请参阅论文。

实验结果

我们在 object recognition, optical flow estimation, 和semantic segmentation三个下游任务上评估了我们的预训练模型,并取得了领先的性能。Baseline包括:

i) SOTA:我们将每项任务与最先进的方法进行比较;

ii)Training from scratch:我们使用随机权重初始化来训练最先进的方法;

iii)Transfer learning of supervised pre-training:使用ImageNet-1K数据集以有监督的方式获得最先进方法的初始权重;

iv)Transfer learning of self-supervised pre-training:最先进方法的初始权重是使用ImageNet-1K数据集以自监督的方式获得的。

Object Recognition

首先展示我们的预训练模型在大规模N-ImageNet数据集上的性能。

然后报告我们在三个小规模数据集N-Cars、N-Caltech101和CIFAR-10-DVS上的性能。

Optical Flow Estimation

在MVSEC数据集上展示了我们的光流估计性能。

Semantic Segmentation

在DDD17和DSEC数据集上展示了我们的分割性能。

结论

在本文中,我们训练了一个用于事件相机数据的自监督学习框架,包含三个关键组成部分:

  1. 一系列事件数据增强
  2. 条件掩蔽策略
  3. 对比学习方法

我们的key insight是增强匹配事件图像之间以及配对事件和 RGB 图像之间嵌入的相似性,以预训练我们的模型。在下游任务(即对象识别、光流估计和语义分割)上的大量实验证明了我们的方法优于过去的方法。我们的模型有望通过使用RGB图像域的视觉语言方法来驱动事件数据网络,从而扩展到零样本学习。我们希望这篇论文能对今后的工作有所启发。

相关推荐
爱吃涮毛肚的肥肥(暂时吃不了版)11 分钟前
项目班——0510——JSON网络封装
c++·算法·json
liang_202625 分钟前
【HT周赛】T3.二维平面 题解(分块:矩形chkmax,求矩形和)
数据结构·笔记·学习·算法·平面·总结
緈福的街口26 分钟前
【leetcode】2900. 最长相邻不相等子序列 I
算法·leetcode·职场和发展
易只轻松熊27 分钟前
C++(20): 文件输入输出库 —— <fstream>
开发语言·c++·算法
远瞻。1 小时前
【论文阅读】人脸修复(face restoration ) 不同先验代表算法整理
论文阅读·算法
进击的小白菜1 小时前
LeetCode 153. 寻找旋转排序数组中的最小值:二分查找法详解及高频疑问解析
数据结构·算法·leetcode
dog2501 小时前
BBR 的 buffer 动力学观感
人工智能·算法
冲帕Chompa4 小时前
图论part10 bellman_ford算法
数据结构·算法·图论
緈福的街口4 小时前
【leetcode】144. 二叉树的前序遍历
算法·leetcode
GG不是gg4 小时前
排序算法之基础排序:冒泡,选择,插入排序详解
数据结构·算法·青少年编程·排序算法