【论文阅读】SegNeXt:重新思考卷积注意力设计

《SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation》

原文:https://github.com/Visual-Attention-Network/SegNeXt/blob/main/resources/paper.pdf

源码:https://github.com/Visual-Attention-Network/SegNeXt

1、简介

提出了SegNeXt用于语义分割的简单卷积网络架构,核心是一种比transformer的自注意力更有效的编码方式进行上下文信息的编码,专注分割性能改进的几个组件,设计出了这种新型卷积注意力网络,性能有不小的提升。

2、网络

编码器

CNN中编码器常采用金字塔结构,作者提出了一种类似ViT但是没有自注意力机制的结构,设计了一种多尺度卷积注意模块(MSCA)。MSCA模块中包括:

1、深度卷积:用于聚合局部信息

2、多分支深度条带卷积:用于捕获多尺度上下文信息

3、1*1卷积:建模不同通道之间的关系

解码器

研究了三种简单的解码器结构,a表示SegFormer中的基于MLP的结构;b是直接将编码器的输出作为解码器的输入,比如ASPP、PSP和DANet等;c是作者采用的结构,聚合了最后三层的特征,并使用轻量级模块建模全局上下文。与SegFormer(聚合第一到第四阶段的特征)不同,作者只在解码器聚合了最后三个层的特征,主要原因是第一阶段的特征包含过多低级特征影像模型性能。下面作者证明SegNeXt优于基于Transformer的SegFormer和HRFormer。

部分实验结果

遥感数据集iSAID

模型参数量及计算量

相关推荐
如若12338 分钟前
SoftGroup训练FORinstance森林点云数据集——从零到AP=0.506完整复现
人工智能·python·深度学习·神经网络·计算机视觉
rit84324994 小时前
matlab实现自适应稀疏表示同时完成图像融合与去噪
人工智能·计算机视觉·matlab
yong99904 小时前
基于SIFT的MATLAB图像拼接实现
人工智能·计算机视觉·matlab
shenxianasi5 小时前
【论文精读】Flamingo: a Visual Language Model for Few-Shot Learning
人工智能·深度学习·机器学习·计算机视觉·语言模型·自然语言处理
向哆哆5 小时前
金属材料表面六种缺陷类型数据集:工业视觉检测的优质训练资源
人工智能·计算机视觉·视觉检测
有Li5 小时前
解剖学引导的全身PET-CT乳腺癌分割与跨模态自对齐/文献速递-基于深度学习的图像配准与疾病诊断
论文阅读·人工智能·深度学习·文献·医学生
s1ckrain6 小时前
【论文阅读】Towards Learning a Generalist Model for Embodied Navigation
论文阅读·多模态·具身智能
Lun3866buzha6 小时前
【计算机视觉】基于YOLOv8-AFPN-P2345的面部区域检测与识别系统实现详解
人工智能·yolo·计算机视觉
咚咚王者6 小时前
人工智能之视觉领域 计算机视觉 第四章 图像基本操作
人工智能·opencv·计算机视觉
AI周红伟6 小时前
周红伟:自媒体的AI时刻到了,Seedance2.0生成AI视频的具体技术原理是什么?抖音终于战胜了Sora2
人工智能·计算机视觉