【论文阅读】SegNeXt:重新思考卷积注意力设计

《SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation》

原文:https://github.com/Visual-Attention-Network/SegNeXt/blob/main/resources/paper.pdf

源码:https://github.com/Visual-Attention-Network/SegNeXt

1、简介

提出了SegNeXt用于语义分割的简单卷积网络架构,核心是一种比transformer的自注意力更有效的编码方式进行上下文信息的编码,专注分割性能改进的几个组件,设计出了这种新型卷积注意力网络,性能有不小的提升。

2、网络

编码器

CNN中编码器常采用金字塔结构,作者提出了一种类似ViT但是没有自注意力机制的结构,设计了一种多尺度卷积注意模块(MSCA)。MSCA模块中包括:

1、深度卷积:用于聚合局部信息

2、多分支深度条带卷积:用于捕获多尺度上下文信息

3、1*1卷积:建模不同通道之间的关系

解码器

研究了三种简单的解码器结构,a表示SegFormer中的基于MLP的结构;b是直接将编码器的输出作为解码器的输入,比如ASPP、PSP和DANet等;c是作者采用的结构,聚合了最后三层的特征,并使用轻量级模块建模全局上下文。与SegFormer(聚合第一到第四阶段的特征)不同,作者只在解码器聚合了最后三个层的特征,主要原因是第一阶段的特征包含过多低级特征影像模型性能。下面作者证明SegNeXt优于基于Transformer的SegFormer和HRFormer。

部分实验结果

遥感数据集iSAID

模型参数量及计算量

相关推荐
大模型最新论文速读13 小时前
GRPO 丢失的组内排序信息,LamPO 补回来了
论文阅读·人工智能·深度学习·机器学习·自然语言处理
Rocky Ding*16 小时前
深入浅出讲解ERNIE-Image图像创作大模型
论文阅读·人工智能·深度学习·机器学习·ai作画·aigc·ai-native
硅谷秋水16 小时前
SkillVLA:通过技能复用应对双-臂操纵中的组合多样性
机器学习·计算机视觉·语言模型·机器人
掘根17 小时前
【openCV】图像缩放,翻转,旋转,视频文件/摄像头读取/保存
人工智能·opencv·计算机视觉
YOLO数据集集合19 小时前
无人机航拍智慧工地工程装备检测数据集|6700+图像9类设备YOLO标注|高空视角目标检测研究
人工智能·yolo·目标检测·计算机视觉·无人机
ZHW_AI课题组19 小时前
[只读]基于 DINO 模型在COCO2017 数据集上的目标检测性能评估(AP 指标)
人工智能·目标检测·计算机视觉
m沐沐20 小时前
【计算机视觉】OpenCV 实战:视频椒盐噪声生成与消除 + 图像边界填充详解
人工智能·opencv·计算机视觉·pycharm·音视频
掘根20 小时前
【openCV】鼠标操作,像素类型转换与归一化
人工智能·opencv·计算机视觉
m沐沐21 小时前
【计算机视觉】OpenCV 图像处理阈值处理 + 图像编辑 + 噪声滤波 + 图像运算
图像处理·人工智能·深度学习·opencv·计算机视觉
人月神话-Lee1 天前
【图像处理】Sobel 边缘检测——让机器“看见“轮廓
图像处理·人工智能·计算机视觉·ios·ai编程·swift