【论文阅读】SegNeXt:重新思考卷积注意力设计

《SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation》

原文:https://github.com/Visual-Attention-Network/SegNeXt/blob/main/resources/paper.pdf

源码:https://github.com/Visual-Attention-Network/SegNeXt

1、简介

提出了SegNeXt用于语义分割的简单卷积网络架构,核心是一种比transformer的自注意力更有效的编码方式进行上下文信息的编码,专注分割性能改进的几个组件,设计出了这种新型卷积注意力网络,性能有不小的提升。

2、网络

编码器

CNN中编码器常采用金字塔结构,作者提出了一种类似ViT但是没有自注意力机制的结构,设计了一种多尺度卷积注意模块(MSCA)。MSCA模块中包括:

1、深度卷积:用于聚合局部信息

2、多分支深度条带卷积:用于捕获多尺度上下文信息

3、1*1卷积:建模不同通道之间的关系

解码器

研究了三种简单的解码器结构,a表示SegFormer中的基于MLP的结构;b是直接将编码器的输出作为解码器的输入,比如ASPP、PSP和DANet等;c是作者采用的结构,聚合了最后三层的特征,并使用轻量级模块建模全局上下文。与SegFormer(聚合第一到第四阶段的特征)不同,作者只在解码器聚合了最后三个层的特征,主要原因是第一阶段的特征包含过多低级特征影像模型性能。下面作者证明SegNeXt优于基于Transformer的SegFormer和HRFormer。

部分实验结果

遥感数据集iSAID

模型参数量及计算量

相关推荐
Coding茶水间8 小时前
基于深度学习的水果检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·机器学习·计算机视觉
橙露9 小时前
二通道数显控制器:工业测控的“双管家”,视觉检测中的隐形助力
人工智能·计算机视觉·视觉检测
cccc来财9 小时前
角点检测算法:Harris 和 FAST 方法
算法·计算机视觉·特征提取
sali-tec10 小时前
C# 基于halcon的视觉工作流-章69 深度学习-异常值检测
开发语言·图像处理·算法·计算机视觉·c#
CoovallyAIHub12 小时前
是什么支撑L3自动驾驶落地?读懂AI驾驶与碰撞预测
深度学习·算法·计算机视觉
十铭忘12 小时前
SAM2跟踪的理解6——mask decoder
人工智能·计算机视觉
普密斯科技12 小时前
从点测量到解决方案:光谱共焦技术如何集成于运动平台,实现3D轮廓扫描与透明物体测厚?
人工智能·算法·计算机视觉·3d·集成测试·测量
这张生成的图像能检测吗13 小时前
(论文速读)卷积层谱范数的紧凑高效上界
人工智能·深度学习·计算机视觉·卷积层谱范数
CV-杨帆13 小时前
论文阅读:arxiv 2025 DeepSeek-R1 Thoughtology: Let‘s think about LLM Reasoning
论文阅读
Katecat9966313 小时前
卡簧目标检测基于改进YOLO11-C3k2-Star模型的实现
人工智能·目标检测·计算机视觉