【论文阅读】火星语义分割的半监督学习

文章目录

【论文阅读】火星语义分割的半监督学习
- 一、介绍
- 二、联系工作
- - [3.1Deep Learning for Mars](#3.1Deep Learning for Mars)
  - [3.2 数据集可以分为三类：](#3.2 数据集可以分为三类：)
  - [3.3 半监督学习](#3.3 半监督学习)
- 三、提出的火星图像分割数据集
- 四、方法
- 四、实验

S ⁵Mars: Semi-Supervised Learning for Mars Semantic Segmentation

深度学习已经成为火星探测的有力工具。火星地形语义分割是一项重要的火星视觉任务，是火星车自主规划和安全驾驶的基础。

缺乏足够详细和高置信度的数据注释

从联合数据和方法设计的角度提出了解决方案

提出了一个新的数据集S5Mars

用于半监督学习的Mars语义分割，基于置信度进行稀疏注释

提出了一种用于火星图像语义分割的半监督学习（SSL）框架,有限的标记数据中学习表征(就是特征图)

广泛使用的自然图像增强对火星图像的影响

组成成分：

两种新颖有效的火星分割SSL增强和增强实例规范化（AugIN）和SAM-Mix增强
我们引入了软到硬的一致性学习策略，基于预测置信度从不同的目标学习

该方法的性能明显优于现有的SSL算法

一、介绍

越来越多的可用数据促进了深度学习算法的应用和发展

本文探讨了火星地形语义分割的任务，该任务旨在从图像中识别出可驾驶区域 和特定地形

火星语义分割面临着数据和方法设计两方面的问题

缺乏令人满意和可用的数据在一定程度上阻碍了深度学习方法的发展

火星漫游者的成本高，带宽有限，从火星到地球的数据传输丢失，收集火星数据非常昂贵。

由于地形的复杂性和相似性，精细和密集的像素级标记是高度专业化和耗时的

火星地形分割数据集AI4Mars只定义了4个简单的类别，难以满足复杂地形识别的实际需求

火星地形分割任务面临两个主要挑战：

缺乏足够详细和高置信度注释的数据
针对火星图像数据的SSL研究不足

我们从数据和方法设计两方面解决了上述问题，将其命名为火星半监督语义分割s5mars

为了提高标签的质量，数据集的标注采用稀疏标注的方式，即只标注人类置信度高的区域

从这些稀疏数据中学习，我们提出了一种新的火星图像地形分割的半监督框架。

基于最近流行的基于一致性正则化的方法，利用弱到强的增广来产生扰动

同时追求扰动的一致性

进一步提出了两种新颖有效的增强方法：增强实例规范化AugIN和SAM-Mix

AugIN在图像之间交换统计信息以生成新的数据视图，同时避免剧烈的颜色分布变化
SAM- mix利用预训练的segment-anything模型（SAM）[14]生成高质量的目标蒙版，减少了混合图像的不确定性

两种数据的增强使得学习一致性更好，性能显著提高

该策略在低置信度区域使用软伪标签，在高置信度区域使用硬伪标签，充分利用了未标记数据

贡献：

收集了一个新的细粒度标记火星数据集，用于地形语义分割，该数据集包含大量火星地貌数据，数据集由专业团队在多轮检查返工下进行稀疏注释
系统地研究了当前主流SSL方法中使用的数据增强方法，提出SAM-Mix和AugIN两种新的有效增强方法
充分利用未标记数据，引入了软-硬一致性学习策略，高置信度区域的硬伪标签和低置信度区域的软伪标签约束学习一致性，进一步提高了一致性

二、联系工作

3.1Deep Learning for Mars

Deep Mars训练AlexNet对以工程为重点的火星车图像（例如，火星车车轮和钻孔的图像）和轨道图像进行分类
SPOC提出利用全卷积神经网络对图像中的火星地形进行分割
Swan等收集了一个地形分割数据集，并使用DeepLabv3+对其性能进行了评估
Goh等采用自监督方法，在标记较少的图像上训练模型
transformer的网络被用于火星岩石分割任务的研究

依赖深度学习的自主探测器

SCOTI模型基于LSTM自动为火星表面图片创建字幕

（不适合采用大型模型，大多需要大量带注释的训练数据，这些数据既昂贵又难以获得）

3.2 数据集可以分为三类：

火星车拍摄真实数据
人工合成数据
地球模拟野外拍摄数据

地球模拟野外拍摄方式需要搭建模拟平台或在地球上寻找与火星相似的景观

中很大一部分图像量小于1000，无法满足机器学习模型的训练需求

3.3 半监督学习

SSL利用未标记数据的流形结构来辅助标记数据的学习
交叉熵损失是通过对标记数据的真值标记来优化的，而对未标记数据的模型则采用正则化项
伪标签方法通过在监督数据上训练的分类器为未标记的数据分配伪标签

基于一致性正则化的方法因其简单、有效而受到广泛关注

依靠各种扰动技术（增强）来生成不同的数据模式

执行一致性正则化目标来指导未标记数据的学习

发展：

MixMatch使用MixUp混合标记和未标记的数据，并使用低熵标签执行一致性正则化
FixMatch[10]进一步将伪标签（即教师模型对弱增广数据的预测）分配给相应的强增广数据
在这些一致性正则化方法中，增广技术即微扰技术是语义分割的关键

三、提出的火星图像分割数据集

为了解决深度学习可用训练数据稀缺的问题，我们创建了一个用于火星表面探测的细粒度标记火星数据集，即S5Mars

拍摄的6000张高分辨率图像，空间分辨率为1200 × 1200

大致分层抽样的方式对数据集进行划分

不同划分之间的标签分布相似，得到5000张图像的训练集、200张图像的验证集和800张图像的测试集

我们在图展示了每个图像中包含的不同标记类别的数量分布

相反，S5Mars采用了基于置信度的稀疏标记方式。这样我们就保证了标签在每个类别中都具有很强的代表性，并减少了标签工作中引入的标签噪声。

四、方法

介绍了提出的火星图像语义分割方法

并在分析的基础上提出了两种有效的增强技术

介绍了软到硬的一致性学习策略，并给出了完整的模型

数据集以稀疏的方式进行标注，即图像的某些区域被标注，而某些区域没有

这些区域可以通过一些小的更改来对齐。遵循主流的一致性正则化半监督方法

SSL的目标是训练一个模型f(·；θ)，通过优化以下目标L，得到良好的表示

L_sup为标记图像上的监督损失，即交叉熵损失，L_unsup为未标记图像上的无监督损失

最近流行的基于一致性正则化的SSL方法FixMatch。具体而言，采用双分支网络，由教师模型f和学生模型。教师模型可以与具有相同权重的学生模型相同

其中m∈[0,1]为动量系数。我们遵循EMA设置来更新教师模型，这也是mean-teacher[47]中推荐的。通过逆向梯度对学生模型进行优化。

FixMatch的核心实现是弱到强的增强策略，它作为扰动并生成不同的增强数据视图

教师模型为弱增强图像分配伪标签，然后将其用于学生模型对强增强图像的学习

需要解决的主要挑战有两个：

由于火星图像的不同属性，先前对地球上自然图像的增强可能无效

火星图像的未标记区域往往具有很高的不确定性，使得伪标签的训练可靠性降低

提出了一个简单而有效的SSL框架

增强模块在SSL中起着重要的作用，它鼓励模型在扰动中学习一致性

增强的方式：

几何增强
基于噪声的增强
基于颜色的增强
基于混合的增强通过插值（Mixup）或剪切粘贴（CutMix）操作混合两个样本。针对SSL进一步开发了一些高级混合方法，如CowMix和ClassMix
Feature-Level Augmentation

我们认为传统的基于颜色的扰动会导致火星图像的颜色分布偏移，造成过度失真问题

不同增强手段造成的影响

提出了为火星图像设计的两种有效增强，AugIN和SAM-Mix，并在我们的方法中使用它们来提高SSL性能。

AugIN：为了避免直接扰动引起图像颜色分布的剧烈变化

µ（·）和σ（·）为均值和标准差函数。同时，我们可以自发地得到两个变量，AugIN-µ和AugIN-σ，它们只交换两个样本之间的平均值或标准差

交换同一batch内图像的统计信息的操作不会改变整个batch的统计信息

SAM-Mix

CutMix在基线上实现了适度的性能增益。

火星图像中有许多边缘不清晰的碎片物体，随机剪切粘贴的方式可能导致不确定性高，限制了模型的性能。

SAM- mix对现成的SAM使用二进制掩码输出的CutMix的推广

SAM可以根据输入或随机生成的提示为图像中的对象生成二进制掩码

用现成的SAM生成目标对象的掩码，并将其粘贴到源图像中

与随机矩形掩码生成相比，SAM可以生成高质量的掩码对特定对象进行分割

SAM输出具有相应置信度分数的二进制掩码列表

掩码进行过滤：

将掩码的大小限制在一定范围内，
掩码的置信度高于一定阈值。如果没有合格的掩码，将直接生成一个随机的矩形掩码

高斯滤波器应用于掩模以消除可能的噪声

一般会按照原图像的位置进行相应的粘贴，以避免出现一些不合理的情况

textitSAM-Mix与其他基于分割的混合增强策略有相似之处

实例或分类的方式开发二进制掩码生成

SAM强大的泛化能力使我们能够高效地为单个物体制作高质量的掩模，这与同时包含多个物体的火星图像兼容

SAM-Mix减少了随机混合带来的不确定性，进一步提高了模型的性能

软硬一致性学习

火星图像具有更令人困惑的类别，例如沙子和土壤，岩石和基岩，这需要更细粒度的表示学习目标

对于数据集中具有高不确定性的未标记区域

高质量的标注火星图像比获得天然地球图像更加困难

软标签表示为模型预测分数p^s (j)，表示在不同语义类别上的概率分布

火星图像中未知区域的一个更细粒度的光滑标签，它可以属于一个新的类，也可以属于一个具有高不确定性的旧类

硬标签提供了一个有信心的目标，迫使模型预测低熵的分布，学习图像中的显式语义映射

这使得模型可以更好地利用未标记的数据，以无监督的方式改进表示一致性学习，获得更好的表示空间

max(p_t (j)) > hard，则应用对模型进行高置信度的单热伪标签优化；

max(p_t(j)) < tsoft，则对软标签目标进行优化，以避免高置信度区域内其他原型特征的噪声信号。

监督项Lsup是标记图像上的交叉熵损失。整个一致性正则化项Lunsup是

四、实验

模型基于DeepLabV3+[28]，采用在Image-Net[52]上预训练的ResNet-50[60]作为分割主干

相应参数：

使用16个输出步长
批量大小设置为8
动量为0.9的SGD优化器
用初始值为0.01的多项式学习率衰减来训练学生模型
学习率按（1−iter/max _iter） 0.9缩放
EMA动量系数m设为min(1−1/(iter + 1), 0.996）
λr和λunsup默认设置为1.0和2.0
模型默认训练240次，
使用教师模型进行评价
用于训练的图像被裁剪为512 × 512的大小
测试图像中间裁剪为1024 × 1024大小