【论文阅读】SegNeXt:重新思考卷积注意力设计

《SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation》

原文:https://github.com/Visual-Attention-Network/SegNeXt/blob/main/resources/paper.pdf

源码:https://github.com/Visual-Attention-Network/SegNeXt

1、简介

提出了SegNeXt用于语义分割的简单卷积网络架构,核心是一种比transformer的自注意力更有效的编码方式进行上下文信息的编码,专注分割性能改进的几个组件,设计出了这种新型卷积注意力网络,性能有不小的提升。

2、网络

编码器

CNN中编码器常采用金字塔结构,作者提出了一种类似ViT但是没有自注意力机制的结构,设计了一种多尺度卷积注意模块(MSCA)。MSCA模块中包括:

1、深度卷积:用于聚合局部信息

2、多分支深度条带卷积:用于捕获多尺度上下文信息

3、1*1卷积:建模不同通道之间的关系

解码器

研究了三种简单的解码器结构,a表示SegFormer中的基于MLP的结构;b是直接将编码器的输出作为解码器的输入,比如ASPP、PSP和DANet等;c是作者采用的结构,聚合了最后三层的特征,并使用轻量级模块建模全局上下文。与SegFormer(聚合第一到第四阶段的特征)不同,作者只在解码器聚合了最后三个层的特征,主要原因是第一阶段的特征包含过多低级特征影像模型性能。下面作者证明SegNeXt优于基于Transformer的SegFormer和HRFormer。

部分实验结果

遥感数据集iSAID

模型参数量及计算量

相关推荐
xsc-xyc14 小时前
RuntimeError: Dataset ‘/data.yaml‘ error ❌ ‘_lz
人工智能·深度学习·yolo·计算机视觉·视觉检测
m0_6501082415 小时前
IntNet:面向协同自动驾驶的通信驱动多智能体强化学习框架
论文阅读·marl·多智能体系统·网联自动驾驶·意图共享·自适应通讯·端到端协同
星爷AG I16 小时前
9-28 视觉工作记忆(AGI基础理论)
人工智能·计算机视觉·agi
橙露17 小时前
视觉检测中的数字光纤放大器的核心参数和调整
人工智能·计算机视觉·视觉检测
AAD5558889918 小时前
基于Mask_RCNN的猫科动物目标检测识别模型实现与分析
人工智能·目标检测·计算机视觉
LittroInno19 小时前
TVMS视频管理平台 —— 多种目标跟踪模式
人工智能·计算机视觉·目标跟踪
没有不重的名么20 小时前
Multiple Object Tracking as ID Prediction
深度学习·opencv·计算机视觉·目标跟踪
马拉AI21 小时前
VAE不再必要?北大PixelGen:像素扩散反超Latent Diffusion,重塑生成新范式
人工智能·计算机视觉
愚者游世21 小时前
Opencv知识点大纲
人工智能·opencv·计算机视觉
m0_6501082421 小时前
Raw2Drive:基于对齐世界模型的端到端自动驾驶强化学习方案
论文阅读·机器人·强化学习·端到端自动驾驶·双流架构·引导机制·mbrl自动驾驶