【深度学习滑坡制图|论文解读3】基于融合CNN-Transformer网络和深度迁移学习的遥感影像滑坡制图方法

文章目录

【深度学习滑坡制图|论文解读3】基于融合CNN-Transformer网络和深度迁移学习的遥感影像滑坡制图方法
[3. Methodology](#3. Methodology)
- [3.1. Model architecture](#3.1. Model architecture)
- - [3.1.1. Global Local feature extraction block](#3.1.1. Global Local feature extraction block)
  - [3.1.2. Detailed spatial spectral Aggregation block](#3.1.2. Detailed spatial spectral Aggregation block)
- [3.2. Deep transfer learning method](#3.2. Deep transfer learning method)

欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！

祝所有的硕博生都能遇到好的导师！好的审稿人！好的同门！顺利毕业！

大多数高校硕博生毕业要求需要参加学术会议，发表EI或者SCI检索的学术论文会议论文：

可访问艾思科蓝官网，浏览即将召开的学术会议列表。会议入口：https://ais.cn/u/mmmiUz

论文链接：https://www.sciencedirect.com/science/article/pii/S1569843223004363

3. Methodology

3.1. Model architecture

SCDUNet++的整体架构如图4所示 。模型中的编码器采用了GLFE模块，这是一个混合卷积神经网络（CNN）-Transformer模块；同时，设计了DSSA模块，以便更精细地提取光谱和空间特征。此外，采用了嵌套解码器并配备密集跳跃连接（DSC），用于在每个阶段恢复特征的分辨率。最终，各阶段特征加权融合，以获得最终结果。实现代码可在https://github.com/lewuu/SCDUNetPP获取。

3.1.1. Global Local feature extraction block

在遥感影像中，滑坡特征间的巨大差异及地物间的相似性增加了区分滑坡的难度。GLFE模块通过浅层CNN结构和深层Swin Transformer结构组合，确保了更准确的信息提取（如图4(b)所示）。

给定输入滑坡图像 X i n ∈ R H × W × C X_{in}∈R^{H×W×C} Xin∈RH×W×C，将 X i n X_{in} Xin 划分为不重叠的补丁 X P ∈ R H / P × W / P × C X_{P}∈R^{H/P×W/P×C} XP∈RH/P×W/P×C，其中 P = 4 P=4 P=4（Liu et al., 2021），这些补丁经过线性嵌入，输入两个连续的Swin Transformer模块，以获取特征 F 3 ∈ R H / 4 × W / 4 × 2 N F_{3}∈R^{H/4×W/4×2N} F3∈RH/4×W/4×2N，其中 N = 32 N=32 N=32。前一阶段输出特征在第4至第5阶段经过补丁合并以实现下采样，随后进入六个和两个连续的Swin Transformer模块，分别得到特征 F 4 ∈ R H / 8 × W / 8 × 4 N F_{4}∈R^{H/8×W/8×4N} F4∈RH/8×W/8×4N和 F 5 ∈ R H / 16 × W / 16 × 8 N F_{5}∈R^{H/16×W/16×8N} F5∈RH/16×W/16×8N。

我们发现补丁切分会导致信息损失，从而影响精度。因此，在较浅层设计了两层CNN结构，以补充模型的局部特征提取能力 (Yuan et al.，2023)。第一阶段通过两个3 × 3卷积模块获取特征 F 1 ∈ R H × W × N F_{1}∈R^{H×W×N} F1∈RH×W×N，第二阶段通过下采样和三个3 × 3卷积模块获得特征 F 2 ∈ R H / 2 × W / 2 × 2 N F_{2}∈R^{H/2×W/2×2N} F2∈RH/2×W/2×2N。

在三个Swin Transformer模块中，窗口大小为8，每个阶段的注意力头数量分别为{2, 4, 8}，每个头的查询维度为32。此外，由于设计了较浅的网络深度（{32, 64, 64, 128, 256}），该模型在参数量和训练难度上具有优势。

3.1.2. Detailed spatial spectral Aggregation block

由于多光谱图像包含比RGB图像更复杂的信息，DSSA模块接收来自光谱（图4 III）和浅层CNN（图4 I和图4 II）的特征输入，从而能够提取空间和光谱特征信息，使模型能够关注更全面和细致的特征。DSSA模块由三个膨胀率分别为{1, 2, 3}的膨胀卷积、一个空间池化模块和一个光谱池化模块组成，如图4(e)所示。

DSSA模块接收来自两个分支的输入：一是光谱张量 X S ∈ R H × W × C S X_{S}∈R^{H×W×C_S} XS∈RH×W×CS（图4 III），另一是GLFE模块中的特征 F 1 ∈ R H × W × N F_{1}∈R^{H×W×N} F1∈RH×W×N（图4 II）和 F 2 ∈ R H / 2 × W / 2 × 2 N F_{2}∈R^{H/2×W/2×2N} F2∈RH/2×W/2×2N（图4 I）。DSSA模块融合这两个分支的特征以获得张量 T i n ∈ R H × W × N T_{in}∈R^{H×W×N} Tin∈RH×W×N，其表达式如公式(5)所示：

其中， F u p ( ⋅ ) F_{up}(·) Fup(⋅)表示使用最近邻插值的上采样函数， C 1 × 1 ( ⋅ ) C_{1×1}(·) C1×1(⋅)和 C 3 × 3 ( ⋅ ) C_{3×3}(·) C3×3(⋅)分别代表具有批量归一化和GELU激活的1×1和3×3卷积层， © © c◯表示特征拼接操作。

在空间池化模块中，张量 T i n T_{in} Tin通过在垂直和水平方向上进行全局平均池化和全局最大池化得到向量 P a v g H ∈ R H × 1 × N P_{avgH}∈R^{H×1×N} PavgH∈RH×1×N、 P a v g W ∈ R 1 × W × N P_{avgW}∈R^{1×W×N} PavgW∈R1×W×N、 P m a x H ∈ R H × 1 × N P_{maxH}∈R^{H×1×N} PmaxH∈RH×1×N和 P m a x W ∈ R 1 × W × N P_{maxW}∈R^{1×W×N} PmaxW∈R1×W×N。这些向量的元素可以通过公式(6)至(9)计算得出。

其中， h ∈ [ 0 , H ) h∈[0,H) h∈[0,H)， w ∈ [ 0 , W ) w∈[0,W) w∈[0,W)， n ∈ [ 0 , N ) n∈[0,N) n∈[0,N)表示在垂直、水平和通道维度上的索引。垂直和水平向量相乘，以分别获得空间中的特征分布权重。随后，将这两个权重结合并通过卷积层进行压缩，以获得空间池化特征 T s p a t ∈ R H × W × N T_{spat}∈R^{H×W×N} Tspat∈RH×W×N，其表达式如公式(10)所示：

其中， ⊗ ⊗ ⊗ 表示矩阵乘法。在光谱池化模块中，张量 T i n T_{in} Tin被压缩以获得向量 P a v g ∈ R N P_{avg}∈R^N Pavg∈RN和 P m a x ∈ R N P_{max}∈R^N Pmax∈RN。这些向量中的元素可以通过公式(11)和(12)计算得出。

这两个向量被拼接并压缩，以获得光谱通道上的注意力权重。随后，这些权重被扩展，以获得大小匹配的光谱池化特征张量 T s p e c ∈ R H × W × N T_{spec}∈R^{H×W×N} Tspec∈RH×W×N，其表达式如公式(13)所示：

其中， F e x p a n d ( ⋅ ) F_{expand}(·) Fexpand(⋅)表示张量扩展函数。接下来，我们可以将从上述两个模块获得的特征与经过三次膨胀卷积处理后的 T i n T_{in} Tin特征叠加。然后进行压缩，以获得DSSA模块的最终特征 T p s s d ∈ R H × W × N T_{pssd}∈R^{H×W×N} Tpssd∈RH×W×N，其表达式如公式(14)所示：

其中， C i ( ⋅ ) C_{i}(·) Ci(⋅)表示膨胀率为 i i i 的膨胀卷积。

3.2. Deep transfer learning method

我们采用了一种简单的基于模型的迁移学习（DTL）方法来评估DTL在提升局部模型（LM）及我们模型转移性能方面的可行性，如图5所示。源领域模型某些层的参数被转移到目标模型，使目标模型能够从源领域学习知识。随后，目标模型可以使用少量目标数据进行微调，从而获得适用于目标领域的模型（Wambugu et al., 2021；Wang et al., 2022）。

在遥感影像（RSIs）中，滑坡与背景的分布极为不平衡。为确保训练的有效性，我们将Lovász-Softmax损失（Berman et al., 2018）与Tversky损失（Salehi et al., 2017）结合，形成了平衡的Lovász-Softmax Tversky损失。其表达式如公式(15)所示：

其中， c c c 为类别 C C C 的子类， m ( c ) m(c) m(c) 是属于类别 C C C 的 c c c 的像素误差向量， Δ J c ΔJ_c ΔJc 是损失因子。 p 0 i p_{0i} p0i 和 p 1 i p_{1i} p1i 分别表示第 i i i 个像素为滑坡和非滑坡的概率， g 0 i g_{0i} g0i 和 g 1 i g_{1i} g1i 分别表示滑坡和非滑坡的真实标签。参数 α α α 和 β β β 分别设置为 0.3 和 0.7。

结果通过精确度、召回率、F1分数、交并比（IoU）、均值交并比（MIoU）和Matthews相关系数（MCC）进行评估。这些指标是基于真正例（TP）、假正例（FP）、假负例（FN）和真负例（TN）计算的，其表达式如公式(16)至(21)所示：

(1) 数据集划分

训练集、验证集和泸定地区的两个测试区域按比例划分为6:2:1:1。九寨沟地区的两个数据集被用作测试集。

(2) 数据增强

对训练数据应用了在线增强，包括：

(i) 以1/4的概率旋转90°、180°、270°或不旋转；
(ii)以1/3的概率进行上下翻转、左右翻转或不翻转；
(iii) 以0.8的概率进行随机裁剪； (iv) 以0.4的概率进行随机擦除。

(3) 超参数详情

我们的模型是在PyTorch框架下构建的，使用AdamW优化器进行训练，权重衰减设为1e-4。初始学习率设置为1e-4，最小学习率设置为9e-6，采用余弦衰减策略。所有实验均在NVIDIA GeForce RTX 2060 12G GPU上进行。

欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！

祝所有的硕博生都能遇到好的导师！好的审稿人！好的同门！顺利毕业！

大多数高校硕博生毕业要求需要参加学术会议，发表EI或者SCI检索的学术论文会议论文：

可访问艾思科蓝官网，浏览即将召开的学术会议列表。会议入口：https://ais.cn/u/mmmiUz