【论文阅读】SegNeXt:重新思考卷积注意力设计

《SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation》

原文:https://github.com/Visual-Attention-Network/SegNeXt/blob/main/resources/paper.pdf

源码:https://github.com/Visual-Attention-Network/SegNeXt

1、简介

提出了SegNeXt用于语义分割的简单卷积网络架构,核心是一种比transformer的自注意力更有效的编码方式进行上下文信息的编码,专注分割性能改进的几个组件,设计出了这种新型卷积注意力网络,性能有不小的提升。

2、网络

编码器

CNN中编码器常采用金字塔结构,作者提出了一种类似ViT但是没有自注意力机制的结构,设计了一种多尺度卷积注意模块(MSCA)。MSCA模块中包括:

1、深度卷积:用于聚合局部信息

2、多分支深度条带卷积:用于捕获多尺度上下文信息

3、1*1卷积:建模不同通道之间的关系

解码器

研究了三种简单的解码器结构,a表示SegFormer中的基于MLP的结构;b是直接将编码器的输出作为解码器的输入,比如ASPP、PSP和DANet等;c是作者采用的结构,聚合了最后三层的特征,并使用轻量级模块建模全局上下文。与SegFormer(聚合第一到第四阶段的特征)不同,作者只在解码器聚合了最后三个层的特征,主要原因是第一阶段的特征包含过多低级特征影像模型性能。下面作者证明SegNeXt优于基于Transformer的SegFormer和HRFormer。

部分实验结果

遥感数据集iSAID

模型参数量及计算量

相关推荐
程序员Linc18 分钟前
计算机视觉 vs 机器视觉 | 机器学习 vs 深度学习:核心差异与行业启示
深度学习·机器学习·计算机视觉·机器视觉
飞30025 分钟前
TP-LINK图像处理工程师(深圳)内推
图像处理·计算机视觉·业界资讯
zy_destiny35 分钟前
【YOLOv12改进trick】三重注意力TripletAttention引入YOLOv12中,实现遮挡目标检测涨点,含创新点Python代码,方便发论文
网络·人工智能·python·深度学习·yolo·计算机视觉·三重注意力
Yeats_Liao15 小时前
华为开源自研AI框架昇思MindSpore应用案例:基于MindSpore框架实现one-stage目标检测模型SSD
人工智能·目标检测·计算机视觉
没有不重的名么15 小时前
摄相机标定的基本原理
人工智能·数码相机·计算机视觉
紫雾凌寒17 小时前
计算机视觉|Swin Transformer:视觉 Transformer 的新方向
人工智能·深度学习·计算机视觉·transformer·vit·swintransformer·视频理解
MF_AI1 天前
颈椎X光数据集(cervical spine X-ray dataset)
图像处理·人工智能·深度学习·yolo·计算机视觉·spine
叶子2024221 天前
点云滤波方法:特点、作用及使用场景
人工智能·计算机视觉
量子-Alex1 天前
【多模态目标检测】M2FNet:基于可见光与热红外图像的多模态融合目标检测网络
人工智能·目标检测·计算机视觉
量子-Alex1 天前
【CVPR 2024】【多模态目标检测】SHIP 探究红外与可见光图像融合中的高阶协同交互
人工智能·目标检测·计算机视觉