使用Mambaout替换YOLObackbone 整合全局信息,提升遮挡目标检测中定位能力,以及小目标、多尺度

近年来,Transformer 架构虽在各类任务中成为主流,但注意力机制的二次复杂度对长序列处理构成挑战。为此,类似 RNN 的模型如 Mamba 被引入,其核心是状态空间模型(SSM),旨在以线性复杂度处理长序列。然而,将 Mamba 应用于视觉任务时,其性能常不及卷积和基于注意力的模型。研究发现,Mamba 更适合兼具长序列和自回归特性的任务,而多数视觉任务(如图像分类)并不满足这些特性。基于此,研究者提出 MambaOut,通过移除 Mamba 块中的 SSM,仅保留门控 CNN 结构,验证 SSM 在视觉任务中的必要性。

1.Mambaout原理

MambaOut 的核心原理是基于对 Mamba 适用场景的分析:Mamba 的 SSM 机制具有 RNN 特性,适合处理长序列且需因果 token 混合(自回归)的任务,而视觉理解任务(如分类)无需因果限制,且短序列场景下 SSM 优势不明显。MambaOut 通过堆叠门控 CNN 块构建模型,门控 CNN 块与 Mamba 块的区别在于不含 SSM,其 token 混合依赖深度卷积,结合 MLP 和门控机制,在保证计算效率的同时,避免了 SSM 在非长序列视觉任务中的冗余性。实验表明,该结构在 ImageNet 分类中超越含 SSM 的视觉 Mamba 模型,验证了 SSM 的非必要。

MambaOut 采用类似 ResNet 的分层架构,包含四个阶段,每个阶段堆叠门控 CNN 块。门控 CNN 块的具体结构为:输入经归一化后,通过线性层分为门控信号(g)、输入信号(i)和卷积信号(c);c 经深度卷积(如 7×7 kernel)处理后,与 i 拼接并与 g 的激活值相乘,再通过线性层输出,最终与残差连接相加。模型配置根据尺寸(如 Femto、Tiny、Small、Base)调整通道数、块数量等参数,例如 Small 版本包含(3, 4, 27, 3)个块,通道数为(96, 192, 384, 576)。

2.Mambaout习作思路​

MambaOut 采用 7×7 深度 wise 卷积作为 Token Mixer,通过局部感受野聚合信息,相较于 Mamba 的 SSM 模块更专注于空间局部模式提取,在遥感缺陷检测中能精准捕获裂缝、破损等小目标缺陷的边缘与结构特征,其类似 ResNet 的四阶段分层架构可从不同尺度解析缺陷形态,避免长序列依赖引入的无关上下文干扰,结合门控机制与深度卷积的高效特征交互,在抵御云层、地物纹理等背景干扰的同时,充分利用 GPU 并行计算能力,实现高分辨率遥感图像中多尺度缺陷的精准定位与快速检测。

3. YOLO与Mambaout 的结合

MambaOut 替换 YOLO 主干时,通过门控 CNN 强化局部特征提取,7×7 深度卷积扩大感受野,显著提升小目标检测能力。其架构移除 SSM 避免因果约束,能更好整合全局信息,提升遮挡目标检测中定位能力。

4. Mambaout代码部分

使用Mambaout替换YOLO backbone 整合全局信息,提升遮挡目标检测中定位能力,以及小目标、多尺度_哔哩哔哩_bilibili

代码获取: https://github.com/tgf123/YOLOv8_improve

5. Mambaout引入到YOLOv12中

将百度网盘的压缩包下载后解压,用编辑器打开运行即可

6. Mambaout引入到YOLOv11中

将百度网盘的压缩包下载后解压,用编辑器打开运行即可

相关推荐
向哆哆2 天前
高精度织物缺陷检测数据集(适用YOLO系列/1000+标注)(已标注+划分/可直接训练)
yolo·目标检测
前网易架构师-高司机2 天前
带标注的驾驶员安全带识别数据集,识别率99.5%,可识别有无系安全带,支持yolo,coco json,pascal voc xml格式
xml·yolo·数据集·交通·安全带
向哆哆3 天前
粉尘环境分类检测千张图数据集(适用YOLO系列)(已标注+划分/可直接训练)
yolo·分类·数据挖掘
琅琊榜首20203 天前
移动端AI挂机新范式:YOLOv8+NCNN实现无Root视觉自动化
人工智能·yolo·自动化
智驱力人工智能3 天前
地铁隧道轨道障碍物实时检测方案 守护城市地下动脉的工程实践 轨道障碍物检测 高铁站区轨道障碍物AI预警 铁路轨道异物识别系统价格
人工智能·算法·yolo·目标检测·计算机视觉·边缘计算
智驱力人工智能3 天前
机场鸟类活动智能监测 守护航空安全的精准工程实践 飞鸟检测 机场鸟击预防AI预警系统方案 机场停机坪鸟类干扰实时监测机场航站楼鸟击预警
人工智能·opencv·算法·安全·yolo·目标检测·边缘计算
前端摸鱼匠4 天前
YOLOv8使用 Ultralytics 内置功能简化格式转换:介绍如何使用 yolo mode=data 等相关功能或辅助工具来加速和简化数据格式的准备工作
人工智能·yolo·目标检测·机器学习·目标跟踪·视觉检测
hans汉斯4 天前
《数据挖掘》期刊推介&征稿指南
图像处理·人工智能·算法·yolo·数据挖掘·超分辨率重建·汉斯出版社
卓越软件开发4 天前
毕设全栈开发一条龙:Java/SpringBoot/Vue/ 小程序 / Python / 安卓 / AI 图像识别 人脸检测 车牌识别 YOLO
开发语言·spring boot·python·yolo·小程序·毕业设计·课程设计
向哆哆4 天前
单车/共享单车目标检测数据集(适用YOLO系列)(已标注+划分/可直接训练)
人工智能·yolo·目标检测