【论文阅读】SegNeXt:重新思考卷积注意力设计

《SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation》

原文:https://github.com/Visual-Attention-Network/SegNeXt/blob/main/resources/paper.pdf

源码:https://github.com/Visual-Attention-Network/SegNeXt

1、简介

提出了SegNeXt用于语义分割的简单卷积网络架构,核心是一种比transformer的自注意力更有效的编码方式进行上下文信息的编码,专注分割性能改进的几个组件,设计出了这种新型卷积注意力网络,性能有不小的提升。

2、网络

编码器

CNN中编码器常采用金字塔结构,作者提出了一种类似ViT但是没有自注意力机制的结构,设计了一种多尺度卷积注意模块(MSCA)。MSCA模块中包括:

1、深度卷积:用于聚合局部信息

2、多分支深度条带卷积:用于捕获多尺度上下文信息

3、1*1卷积:建模不同通道之间的关系

解码器

研究了三种简单的解码器结构,a表示SegFormer中的基于MLP的结构;b是直接将编码器的输出作为解码器的输入,比如ASPP、PSP和DANet等;c是作者采用的结构,聚合了最后三层的特征,并使用轻量级模块建模全局上下文。与SegFormer(聚合第一到第四阶段的特征)不同,作者只在解码器聚合了最后三个层的特征,主要原因是第一阶段的特征包含过多低级特征影像模型性能。下面作者证明SegNeXt优于基于Transformer的SegFormer和HRFormer。

部分实验结果

遥感数据集iSAID

模型参数量及计算量

相关推荐
CS_Zero11 小时前
无人机路径规划算法——EGO-planner建模总结—— EGO-planner 论文笔记(一)
论文阅读·算法·无人机
幻风_huanfeng13 小时前
人工智能之数学基础:坐标下降法
人工智能·深度学习·计算机视觉·梯度下降法·坐标下降法
咸鱼翻身小阿橙14 小时前
QT-P3
开发语言·qt·计算机视觉
格林威15 小时前
工业相机“心跳”监测脚本(C# 版) 支持海康 / Basler / 堡盟工业相机
开发语言·人工智能·数码相机·opencv·计算机视觉·c#·视觉检测
编码小哥16 小时前
OpenCV图像增强实战:对比度调整与Gamma校正
人工智能·opencv·计算机视觉
Ricardo-Yang16 小时前
# BPE Tokenizer:从训练规则到推理切分的完整理解
人工智能·深度学习·算法·机器学习·计算机视觉
格林威17 小时前
如何用 eBPF 监控 GigE Vision 相机网络性能
网络·人工智能·数码相机·yolo·计算机视觉·视觉检测·工业相机
m0_7431064617 小时前
【浙大&南洋理工最新综述】Feed-Forward 3D Scene Modeling(二)
人工智能·算法·计算机视觉·3d·几何学
STLearner1 天前
WSDM 2026 | 时间序列(Time Series)论文总结【预测,表示学习,因果】
大数据·论文阅读·人工智能·深度学习·学习·机器学习·数据挖掘
__Wedream__1 天前
NTIRE 2026 Challenge on Nighttime Image Dehazing——冠军方案解读
深度学习·计算机视觉·超分辨率重建·basicsr·nitre