【论文阅读】SegNeXt：重新思考卷积注意力设计

Deeeep Learning2024-08-21 18:31

《SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation》

原文：https://github.com/Visual-Attention-Network/SegNeXt/blob/main/resources/paper.pdf

源码：https://github.com/Visual-Attention-Network/SegNeXt

1、简介

提出了SegNeXt用于语义分割的简单卷积网络架构，核心是一种比transformer的自注意力更有效的编码方式进行上下文信息的编码，专注分割性能改进的几个组件，设计出了这种新型卷积注意力网络，性能有不小的提升。

2、网络

编码器

CNN中编码器常采用金字塔结构，作者提出了一种类似ViT但是没有自注意力机制的结构，设计了一种多尺度卷积注意模块（MSCA）。MSCA模块中包括：

1、深度卷积：用于聚合局部信息

2、多分支深度条带卷积：用于捕获多尺度上下文信息

3、1*1卷积：建模不同通道之间的关系

解码器

研究了三种简单的解码器结构，a表示SegFormer中的基于MLP的结构；b是直接将编码器的输出作为解码器的输入，比如ASPP、PSP和DANet等；c是作者采用的结构，聚合了最后三层的特征，并使用轻量级模块建模全局上下文。与SegFormer（聚合第一到第四阶段的特征）不同，作者只在解码器聚合了最后三个层的特征，主要原因是第一阶段的特征包含过多低级特征影像模型性能。下面作者证明SegNeXt优于基于Transformer的SegFormer和HRFormer。

部分实验结果

遥感数据集iSAID

模型参数量及计算量