YOLOv11-seg改进系列 | 引入CVPR2025 MambaOut的C3k2_MambaOut模块，门控大核卷积增强C3k2，适合精度优先实验

YOLOv11-seg改进 | C3k2_MambaOut门控大核卷积替换C3k2全流程指南

- 一、本文简介
- - [1.1 原始 C3k2 的局限](#1.1 原始 C3k2 的局限)
  - [1.2 C3k2_MambaOut 做了什么](#1.2 C3k2_MambaOut 做了什么)
  - [1.3 实测参数量与 GFLOPs 对比](#1.3 实测参数量与 GFLOPs 对比)
- 二、模块原理详解
- - [2.1 从底层到顶层的结构树](#2.1 从底层到顶层的结构树)
  - [2.2 原始 C3k2 与 C3k2_MambaOut 的本质差异](#2.2 原始 C3k2 与 C3k2_MambaOut 的本质差异)
  - [2.3 C3k2_MambaOut 的前向流程](#2.3 C3k2_MambaOut 的前向流程)
  - [2.4 为什么它更适合实例分割](#2.4 为什么它更适合实例分割)
- 三、改进思想与创新点
- - [3.1 背景与动机](#3.1 背景与动机)
  - [3.2 核心创新点](#3.2 核心创新点)
  - [3.3 与原始 C3k2 的对比](#3.3 与原始 C3k2 的对比)
  - [3.4 在 YOLOv11 中的适配设计](#3.4 在 YOLOv11 中的适配设计)
- 四、完整代码
- - [4.1 底层卷积封装](#4.1 底层卷积封装)
  - [4.2 CSP 外壳与原始 C3k2 结构](#4.2 CSP 外壳与原始 C3k2 结构)
  - [4.3 MambaOut 的底层门控块](#4.3 MambaOut 的底层门控块)
  - [4.4 最终接入 YOLO 的封装类](#4.4 最终接入 YOLO 的封装类)
- 五、手把手配置步骤
- - [5.1 第一步：检查 `extra_modules/init.py` 是否需要额外导入](#5.1 第一步：检查 extra_modules/__init__.py 是否需要额外导入)
  - [5.2 第二步：检查 `tasks.py` 是否需要注册](#5.2 第二步：检查 tasks.py 是否需要注册)
  - [5.3 第三步：训练命令示例](#5.3 第三步：训练命令示例)
- [六、YAML 配置文件](#六、YAML 配置文件)
- - [6.1 变体一：全面替换](#6.1 变体一：全面替换)
  - [6.2 变体二：仅替换 Backbone](#6.2 变体二：仅替换 Backbone)
  - [6.3 变体三：精度优先模式](#6.3 变体三：精度优先模式)
  - [6.4 变体四：混合模式](#6.4 变体四：混合模式)
  - [6.5 变体五：P2 四尺度版](#6.5 变体五：P2 四尺度版)
- 七、常见问题
- - [7.1 `NameError: name 'C3k2_MambaOut' is not defined`](#7.1 NameError: name 'C3k2_MambaOut' is not defined)
  - [7.2 需要安装哪些第三方依赖](#7.2 需要安装哪些第三方依赖)
  - [7.3 如何把 `Segment` 版改成 `Detect` 版](#7.3 如何把 Segment 版改成 Detect 版)
  - [7.4 YAML 参数怎么理解](#7.4 YAML 参数怎么理解)
- 八、总结

专栏系列 ：YOLOv11 注意力/精度改进实战
改进点 ：将 YOLOv11-seg 中的 C3k2 替换为基于 CVPR2025 MambaOut 的 C3k2_MambaOut，核心是引入 GatedCNNBlock_BCHW 的门控通道混合、7x7 深度卷积局部建模和 LayerNormGeneral 归一化增强，在参数量与 GFLOPs 小幅增加的前提下，提供更强的特征表达能力，更适合精度优先实验。

一、本文简介

本文引入 CVPR 2025 MambaOut《Do We Really Need Mamba for Vision?》 中的门控卷积思想，在当前仓库里对应的落地模块为 ultralytics/nn/backbone/MambaOut.py 中的 GatedCNNBlock_BCHW，并由 ultralytics/nn/extra_modules/block.py 封装成 C3k2_MambaOut。需要先说明一个关键事实：这个改进块虽然名字叫 MambaOut，但当前仓库接入的并不是状态空间扫描模块，而是 MambaOut 里的 BCHW 版门控卷积块 ，因此它本质上是一个更强的卷积混合器替换方案，而不是额外引入 mamba_ssm 的 SSM 结构。

1.1 原始 C3k2 的局限

YOLOv11-seg 默认的 C3k2 结构足够高效，但在实例分割任务里也有几个比较明显的瓶颈：

Bottleneck 内部仍以固定深度卷积堆叠为主，局部感受野相对保守。
通道混合主要依赖前后两次卷积，缺少显式的门控选择机制。
对复杂纹理、边界细节和中大目标区域的一致性建模能力有限。

1.2 C3k2_MambaOut 做了什么

当前仓库里的 C3k2_MambaOut 没有改动 C2f/C3k2 的外层拼接范式，而是在 self.m 内把原先的 Bottleneck 替换成了 GatedCNNBlock_BCHW。它带来三点核心变化：

门控混合 ：先做通道扩展，再拆分出门控分支 g、直连分支 i 和卷积分支 c。
大核局部建模 ：卷积分支通过 7x7 深度卷积增强局部空间感受野。
BCHW 原生归一化 ：通过 LayerNormGeneral 直接在 BCHW 张量上完成归一化，避免多余张量布局转换。

1.3 实测参数量与 GFLOPs 对比

本文没有臆造精度结果，只对当前仓库环境下的模型结构进行了真实测量。测试命令如下：

python 复制代码

from ultralytics import YOLO
YOLO("ultralytics/cfg/models/11-seg/yolo11-seg.yaml").info()
YOLO("ultralytics/cfg/models/11-seg/light_impro/yolo11-seg-C3k2-MambaOut.yaml").info()

实测结果如下：

模型	参数量	GFLOPs	测量说明
`yolo11n-seg`	`2.46M`（`2,460,112`）	`9.6`	2026-04-21 复测，与 2026-04-18 既有基线一致
`yolo11n-seg-C3k2-MambaOut`	`2.63M`（`2,627,218`）	`10.3`	2026-04-21 实测
变化	`+167,106`（`+6.79%`）	`+0.7`（`+7.29%`）	典型精度优先型替换块

从结构与复杂度看，C3k2_MambaOut 明显不是轻量化方向，而是用少量额外计算换更强表征 的精度向改进。至于是否真正涨点，需要在你的实例分割数据集上训练后再看 mAP 和 mask mAP。

二、模块原理详解

2.1 从底层到顶层的结构树

text 复制代码

C3k2_MambaOut
├─ 继承自 C3k2
│  ├─ 继承自 C2f
│  │  ├─ cv1: Conv(c1, 2c, 1)
│  │  ├─ cv2: Conv((2+n)c, c2, 1)
│  │  └─ m: ModuleList(...)
│  └─ 将原始 Bottleneck 替换为 GatedCNNBlock_BCHW
├─ C3k_MambaOut
│  └─ 在 C3k 的内部堆叠 GatedCNNBlock_BCHW
└─ GatedCNNBlock_BCHW
   ├─ norm: LayerNormGeneral((C,1,1))
   ├─ fc1: 1x1 Conv，通道扩展到 2h
   ├─ split: [g, i, c]
   ├─ conv: 7x7 Depthwise Conv(c)
   ├─ act: GELU(g)
   ├─ fc2: 1x1 Conv，投影回 C
   └─ residual: x + DropPath(...)

2.2 原始 C3k2 与 C3k2_MambaOut 的本质差异

原始 C3k2 的核心单元还是 Bottleneck：

B o t t l e n e c k ( x ) = x + D W C o n v 2 ( D W C o n v 1 ( x ) ) \mathrm{Bottleneck}(x)=x+\mathrm{DWConv}_2(\mathrm{DWConv}_1(x)) Bottleneck(x)=x+DWConv2(DWConv1(x))

而 C3k2_MambaOut 的核心单元换成了 GatedCNNBlock_BCHW：

h = ⌊ 8 3 C ⌋ , C conv = r C h=\left\lfloor \frac{8}{3}C \right\rfloor,\quad C_{\text{conv}}=rC h=⌊38C⌋,Cconv=rC