【论文阅读】SegCLIP：用于高分辨率遥感图像语义分割的多模态视觉语言和快速学习

文章目录

【论文阅读】SegCLIP：用于高分辨率遥感图像语义分割的多模态视觉语言和快速学习

SegCLIP: Multimodal Visual-Language and Prompt Learning for High-Resolution Remote Sensing Semantic Segmentation

基于深度学习的语义分割方法层出不穷，取得了重大突破

目前的研究主要集中在视觉特征空间的表征学习上，多模态数据源的潜力还有待充分挖掘

视觉语言的基础模型，即对比语言图像预训练（CLIP），在视觉领域建立了一个新的范式

提出了一种基于语言描述的提示方法，使CLIP能够为遥感图像生成语义上不同的上下文信息

已经适应CLIP提取文本信息，从而指导视觉模型区分类

分利用文本数据的潜力，使用额外的真实的文本来细化模糊查询特征

实验结果表明，该方法在LoveDA、iSAID和UAVid公共语义分割数据集上表现出了上级的性能

一、介绍

高分辨率遥感图像的语义分割是现代空间信息技术的重要组成部分

遥感语义分割作为一项基本的计算机视觉任务，试图精确地将遥感图像的每个像素分类到具有特定语义信息的类中

语义分割依赖于

阈值分割
边缘检测
传统机器学习

这些方法通常难以处理复杂场景和动态环境，并且由于有限的手动特征表达、泛化能力差和准确性低

随着深度学习的发展，图像语义分割取得了重大进展

交叉融合网络CF-Net引入了HRRS图像的交叉融合模块，扩展了低层特征的感受野
S-RA-FCN通过分析空间位置和特征图之间的全局关系来增强关系特征表示

基于Transformer的架构在HR-RS图像语义分割方面取得了很好的效果

但由于只关注单模态数据，而忽略了多模态数据丰富的语义潜力，导致性能瓶颈

开发一个多模态HRRS语义分割框架对于克服这一局限性至关重要

随着传感器的多样性和遥感图像数量的不断扩大

多模态方法在语义分割任务中的应用越来越受到关注[29]

常见的遥感数据包括

多光谱图像
激光雷达（LiDAR）
合成孔径雷达（SAR）数据

Pan等人证明，将LiDAR数据合并到2-D多光谱图像中可以有效地解决建筑物高度的变化

Li等人开发了一种用于土地覆盖分类的融合架构，采用神经结构搜索（NAS）将分层光学特征与SAR数据融合

Kang等人通过光学图像的知识转移增强了SAR图像分割性能

视觉语言表征学习成为计算机视觉研究的一个重要领域，其目标是利用深度学习技术从图像-文本对中提取统一的跨模态特征表征，从而增强各种多模态任务

二、联系工作

基于深度学习的语义分割

语义分割的目标是为给定图像中的每个像素分配语义标签，以便每个像素都正确地标记其相应的类别

语义分割任务面临着由于类内和上下文变化而带来的困难

语义分割方法大致可以分为两大类：

逐像素分类的分割方法
基于掩码分类的分割方法

模分类模型预测图像中每个对象实例的类特定掩模，而不是独立地对每个像素进行分类

掩码分类广泛应用于实例级分割任务中

三、方法

在本节中，我们首先详细介绍SegCLIP框架，这是一种使用CLIP进行语义提示的HRRS语义分割任务的学习方法

SegCLIP的整体架构分为三个核心组件：

多尺度特征建模
跨模态文本提示和Transformer解码
类别预测

重点研究：

跨模态文本提示
Transformer解码
文本映射提示（TMP）
CFF模块
地面真实文本引导（GTG）

SegCLIP整体框架：该框架分为三个主要部分：

**（a）**提取多尺度特征

**（b）**为随后的文本提示生成语言描述

**（c）**生成分类及其相应的掩码

在多尺度特征建模阶段，选择ResNet-50 作为主干网络结构来提取图像的多级特征表示

然后由像素解码器细化，以实现每个像素级的准确预测

跨模态文本提示主要包括TMP、CFF模块和GTG，这也是我们工作的重点

利用CLIP模型的无监督分类能力，生成文本提示，用于多模态输入数据，侧重于语义分割

仅使用CLIP的文本编码器，冻结其参数，这个过程是由TMP完成的

文本和图像数据的表示和结构差异较大，直接使用文本特征指导图像中的语义特征提取可能会导致模型学习困难

因此通过CFF模块将联合收割机的文本和视觉特征结合起来

在跨模态文本提示中，通过GTG引入地面实况（Ground-Truth，GT）文本信息

经过多层Transformer解码器运算，最终得到维数为N ×（K + 1）的类预测向量

二进制掩码预测P_mask的维数为N × H × W

通过对掩码嵌入和类别预测向量P_class进行逐元素乘积运算得到，最后通过矩阵运算将P_class和P_mask结合得到最终的语义分割结果

文本映射提示

建了一种自适应的方法来生成这样的描述，旨在协调掩模分类与视觉文本

过引入联合视觉-语言学习机制，我们将交叉注意学习转化为探索视觉数据和语言描述之间内在联系的过程

我们选择LoveDA数据集[70]作为示例

它涵盖了七个核心类：背景、建筑物、道路、水、荒地、森林、农业，对于这n个类，我们构造了相应的文本描述

我们使用模板"a photo with a {class}"为每个类编译一个文本描述列表，其中"class"表示类名

文本映射器包括文本标记器，冻结文本编码器，

该组件生成视觉上相关的文本提示查询嵌入（Ntext）
随后将其与可学习的文本上下文嵌入（Qctx）
集成以形成文本提示（Qtext）

文本结构为text = [a photo with a {class_i}]，其中i ∈ [1，7]

使用称为文本标记器的序列数据处理方法将这些自然语言描述转换为文本编码特征

编码器是一个包含12层转换器的架构。

因此，文本嵌入不仅包含图像中的二进制掩码信息，还包含每个类别的概率分布，从而为模型提供丰富的语义信息

为了进一步增强模型的语义理解能力，我们引入了一组可学习的文本上下文嵌入Q_ctx

反过来又会生成N个文本查询项（Q_text）

CFF模块

由于遥感图像本身的复杂性，文本编码器提取的文本信息很难与特定的遥感图像准确对应，这对多模态遥感图像语义分割提出了挑战

设计了一个CFF模块，旨在有效地集成图像的高级语义特征和文本嵌入特征

以增强不同模态之间的协同作用和相关性

class的数量（n）小于query的数量（N）

当构造文本提示时，原始文本嵌入可能包含冗余的"空白"信息，这对于在分割任务中引导提示没有帮助

采用注意机制来促进每个位置特征按照其顺序进行信息的交互和整合

旨在增强和协调内部特征表征的一致性，从而抑制冗余信息的表达

这种方法对于严重依赖文本上下文的信息特别有利

这些特征包含了丰富的上下文信息，能够捕捉和表达内部复杂的细节和结构关系，通过交叉注意机制对齐这些特征，使模型能够更好地理解文本和图像之间的内在关系

使用闭集合中的类标签作为文本提示来精确定义查询范围，但是，这个过程未能充分利用文本信息的潜力

虽然我们在图4中为遥感图像

指定了"背景"、"农业"、"道路"、"森林"、"荒地"、"水"和"建筑物"的文本提示

但在（b）中只有"背景"、"道路"和"建筑物"标签相关，其余提示都不相关，提示使用率低

虽然目前的方法通过标签定义查询范围，但不能有效利用文字提示，如何制定更准确的指引？

如图5所示，（a）和（B）的提示内容由类（c）和（d）采用GT来获取语言描述作为提示内容，利用相应的提示内容作为附加查询

采用方法（d）可以获得上级性能

为了便于计算，假设GT包含前t类的前景。因此，text_gt被公式化为[具有{class_i}的照片]，其中i ∈ [1，t]

textgt经过文本标记器（Tt）和文本编码器（encoder_text）的处理，以生成文本映射（Q_gt），然后将其作为附加查询嵌入

因此，在解码器的训练阶段，查询被分为两部分：

引导部分（Q_gt）

重建部分（Q_text）

重建部分来自数据集中的类别描述

我们从GT中获得与每个类别对应的前景区域作为二进制掩码

掩码注意阶段，我们联合将这些类别特定的二进制掩码与原始掩码相结合，并使用GT的二进制掩码来指导原始掩码的重建过程

自我注意阶段，我们引入了注意力掩模方法

损失函数

egCLIP训练过程涉及计算两个主要损失：预测分类损失和预测掩码损失

四、实验结果

数据集

LoveDA数据集

1024 × 1024像素
2522张图像进行训练
1669张图像进行验证/测试

iSAID 数据集

512 × 512
1411幅训练集图像进行训练，
458幅图像进行验证

UAVid 数据集

1024 × 1024像素
200幅图像用于训练
70幅图像用于验证

文中还给了更多对应的消融实验