论文信息

题目：MaskVO: Self-Supervised Visual Odometry with a Learnable Dynamic Mask
作者：Weihao Xuan, Ruijie Ren, Siyuan Wu, Changhao Chen
时间：2022
来源： IEEE/SICE International Symposium on System Integration (SII)

Abstract

深度学习的最新进展使移动机器人能够以自我监督的方式联合学习自我运动和深度图。

然而，现有的方法受到尺度模糊问题和环境问题的困扰，阻碍了实际应用。

我们的工作旨在通过提出一种自监督视觉里程计模型来解决这两个问题，该模型利用图像序列的时间依赖性并从单目相机产生尺度一致的运动变换。

我们提出的框架与新颖的掩模网络集成，以提供可学习的动态掩模，减少场景动态和照明变化的影响。

Introduction

本工作旨在通过提出MaskVO来解决上述两个问题。这种自我监督的 VO 模型学会从图像序列中生成准确且尺度一致的自我运动估计。请注意，我们的模型仅使用单目图像进行训练和测试。

该框架将之前的自监督 VO 模型 $6$ 重新表述为顺序学习问题，通过循环神经网络从图像序列中提供视觉特征，以利用它们的时间依赖性。这样做，它为手头的任务提供了更合适的功能。

为了减少环境动态和场景照明变化的影响，我们提出了一种基于动态场景/观察条件的去噪自动编码器（DAE）的新型动态掩模网络。掩模网络是端到端可训练的，提供动态掩模来解决场景问题，以进一步提高性能。

总之，我们的贡献如下：

1）我们为自监督 VO 系统提出了一种新颖的可学习掩模网络，该网络提供动态掩模以消除环境问题的影响；

2）我们引入了一个时间感知的VO框架，该框架利用图像序列中视觉运动的时间依赖性，并提取适合姿势估计的特征，这进一步提高了模型性能；

3）我们在现有尺度一致的 VO 系统的共同基准上进行了实验，我们的模型优于它们。

Methodology

Architecture

这项工作的目的是提出一种自监督学习系统，从未标记的图像序列中重建尺度一致的自我运动。

如图 2 所示，两个未标记的 RGB 图像 I a I_a Ia 和 I b I_b Ib 堆叠在一起并输入到特征提取器中。
I a I_a Ia 和 I b I_b Ib 是源图像和目标图像。与 $6$ 、 $12$ 不同，我们使用图像序列来利用视觉运动的时间依赖性。

特征时间建模模块提取图像序列的时间信息，由循环神经网络组成。

然后，6-DoF 位姿 P a b P_{ab} Pab 由位姿网络生成。同时，输入图像的深度图由深度网络生成。

投影图像 I a ′ I_{a}^{\prime} Ia′ 使用 D a 、 I b D_a、I_b Da、Ib和6-DoF位姿 P a b P_{ab} Pab通过等式5生成。

引入掩模网络将学习到的空间信息合并到框架中，减少场景动态的影响。真实图像 I a I_{a} Ia和合成 I a ′ I_{a}^{\prime} Ia′ 之间的差异可以用作自监督信号来构造光度损失。它可以约束并强制系统根据不同的输入图像序列估计姿态和深度。

Temporal-aware Feature Encoder

基于卷积神经网络 (CNN) 的特征提取器从两个串联图像中提取视觉特征，然后使用时间建模组件来利用这些特征的时间连接来实现更好的姿势估计。

与之前的工作 $6$ 、 $12$ 直接从两对图像中提取时间特征不同，我们将这些图像表示为一个序列，然后从该序列中提取特征。由于循环神经网络（RNN）能够捕获序列之间的依赖关系，因此它非常适合将 RNN 结构应用于 VO 问题 $16$ 。 RNN 维护其隐藏状态并使用以下序列更新它们：

为了处理长期图像序列的任务，利用了长短期记忆（LSTM）。在训练和测试过程中，我们在序列开头初始化隐藏状态。随着时间信息的引入，自我运动网络中提供了更合适的特征。它有助于解决长期位姿轨迹预测中的漂移问题。

Pose Network and Depth Network

Pose Network．如图 2 所示，PoseNet 结构被设计用于预测图像之间的相机旋转和平移。由于此步骤中获得的特征是由特征提取器仔细选择的，并且重点关注时间信息，因此利用两个全连接层（FCN）来根据高维特征预测 6-DoF 姿势。

Depth Network 这项工作中使用的深度网络架构基于 DispNetS $19$ ，我们用深度残差块 $14$ 替换卷积块。在我们的 DispResNet 中，除了预测 6 个不同尺度深度的 6 个层之外，所有卷积层和上卷积层均由 ReLU 激活。为了迫使预测的深度值处于正且合理的范围内，我们通过 1=(α·sigmoid(x) + β) 在不同尺度上添加非线性，其中 α = 10； β = 0:01。