Ultralytics：解读GhostConv模块

前言
相关介绍
- - [Ultralytics 简介](#Ultralytics 简介)
前提条件
实验环境
[GhostConv（Ghost 卷积模块）](#GhostConv（Ghost 卷积模块）)
- - 代码实现
  - 功能
  - 初始化参数
  - 前向方法
  - 使用示例
  - 流程示意图
  - 代码解读
  - - [`init` 方法](#__init__ 方法)
    - [`forward` 方法](#forward 方法)
    - 核心思想
  - 注意事项
  - 优缺点
  - - 优点
    - 缺点
参考文献

前言

由于本人水平有限，难免出现错漏，敬请批评改正。

更多精彩内容，可点击进入Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏、人工智能混合编程实践专栏或我的个人主页查看

YOLOs-CPP：一个免费开源的YOLO全系列C++推理库（以YOLO26为例）

PaddleOCR：Win10上安装使用PPOCRLabel标注工具

目标检测：使用自己的数据集微调DEIMv2进行物体检测

图像分割：PyTorch从零开始实现SegFormer语义分割

图像超分：使用自己的数据集微调Real-ESRGAN-x4plus进行超分重建

图像生成：PyTorch从零开始实现一个简单的扩散模型

Stable Diffusion：使用自己的数据集微调 Stable Diffusion 3.5 LoRA 文生图模型

图像超分：使用自己的数据集微调Real-ESRGAN-x2plus进行超分重建

Anomalib：使用Anomalib 2.1.0训练自己的数据集进行异常检测

Anomalib：在Linux服务器上安装使用Anomalib 2.1.0

人工智能混合编程实践：C++调用封装好的DLL进行异常检测推理

人工智能混合编程实践：C++调用封装好的DLL进行FP16图像超分重建（v3.0）

隔离系统Python：源码编译3.11.8到自定义目录（含PGO性能优化）

在线机的Python环境迁移到离线机上

Nuitka 将 Python 脚本封装为 .pyd 或 .so 文件

Ultralytics：使用 YOLO11 进行速度估计

Ultralytics：使用 YOLO11 进行物体追踪

Ultralytics：使用 YOLO11 进行物体计数

Ultralytics：使用 YOLO11 进行目标打码

人工智能混合编程实践：C++调用Python ONNX进行YOLOv8推理

人工智能混合编程实践：C++调用封装好的DLL进行YOLOv8实例分割

人工智能混合编程实践：C++调用Python ONNX进行图像超分重建

人工智能混合编程实践：C++调用Python AgentOCR进行文本识别

通过计算实例简单地理解PatchCore异常检测

Python将YOLO格式实例分割数据集转换为COCO格式实例分割数据集

YOLOv8 Ultralytics：使用Ultralytics框架训练RT-DETR实时目标检测模型

基于DETR的人脸伪装检测

YOLOv7训练自己的数据集（口罩检测）

YOLOv8训练自己的数据集（足球检测）

YOLOv5：TensorRT加速YOLOv5模型推理

YOLOv5：IoU、GIoU、DIoU、CIoU、EIoU

玩转Jetson Nano（五）：TensorRT加速YOLOv5目标检测

YOLOv5：添加SE、CBAM、CoordAtt、ECA注意力机制

YOLOv5：yolov5s.yaml配置文件解读、增加小目标检测层

Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集

YOLOv5：使用7.0版本训练自己的实例分割模型（车辆、行人、路标、车道线等实例分割）

使用Kaggle GPU资源免费体验Stable Diffusion开源项目

Stable Diffusion：在服务器上部署使用Stable Diffusion WebUI进行AI绘图（v2.0）

Stable Diffusion：使用自己的数据集微调训练LoRA模型（v2.0）

前提条件

熟悉Python、Pytorch

实验环境

bash 复制代码

Package                  Version
------------------------ ------------
Python                   3.11.8
absl-py                  2.4.0
accelerate               1.13.0
annotated-doc            0.0.4
anyio                    4.13.0
calflops                 0.3.2
certifi                  2026.4.22
charset-normalizer       3.4.7
click                    8.3.3
colorama                 0.4.6
contourpy                1.3.3
cycler                   0.12.1
filelock                 3.29.0
flatbuffers              25.12.19
fonttools                4.62.1
fsspec                   2026.4.0
grpcio                   1.80.0
h11                      0.16.0
hf-xet                   1.5.0
httpcore                 1.0.9
httpx                    0.28.1
huggingface_hub          1.14.0
idna                     3.15
Jinja2                   3.1.6
kiwisolver               1.5.0
Markdown                 3.10.2
markdown-it-py           4.2.0
MarkupSafe               3.0.3
matplotlib               3.10.9
mdurl                    0.1.2
ml_dtypes                0.5.0
mpmath                   1.3.0
networkx                 3.6.1
numpy                    1.26.4
nvidia-cublas-cu12       12.8.3.14
nvidia-cuda-cupti-cu12   12.8.57
nvidia-cuda-nvrtc-cu12   12.8.61
nvidia-cuda-runtime-cu12 12.8.57
nvidia-cudnn-cu12        9.7.1.26
nvidia-cufft-cu12        11.3.3.41
nvidia-cufile-cu12       1.13.0.11
nvidia-curand-cu12       10.3.9.55
nvidia-cusolver-cu12     11.7.2.55
nvidia-cusparse-cu12     12.5.7.53
nvidia-cusparselt-cu12   0.6.3
nvidia-nccl-cu12         2.26.2
nvidia-nvjitlink-cu12    12.8.61
nvidia-nvtx-cu12         12.8.55
onnx                     1.19.0
onnxruntime-gpu          1.26.0
onnxslim                 0.1.94
opencv-python            4.6.0.66
packaging                26.2
pillow                   12.2.0
pip                      24.0
polars                   1.40.1
polars-runtime-32        1.40.1
protobuf                 7.34.1
psutil                   7.2.2
pycocotools              2.0.11
Pygments                 2.20.0
pyparsing                3.3.2
python-dateutil          2.9.0.post0
PyYAML                   6.0.3
regex                    2026.5.9
requests                 2.34.1
rich                     15.0.0
safetensors              0.7.0
scipy                    1.16.0
setuptools               65.5.0
shellingham              1.5.4
six                      1.17.0
sympy                    1.14.0
tabulate                 0.10.0
tensorboard              2.20.0
tensorboard-data-server  0.7.2
tokenizers               0.22.2
torch                    2.7.1+cu128
torchaudio               2.7.1+cu128
torchvision              0.22.1+cu128
tqdm                     4.67.3
transformers             5.8.1
triton                   3.3.1
typer                    0.25.1
typing_extensions        4.15.0
ultralytics              8.4.58
ultralytics-thop         2.0.19
urllib3                  2.7.0
Werkzeug                 3.1.8

GhostConv（Ghost 卷积模块）

GhostConv 是基于 GhostNet 论文中提出的 Ghost 模块实现的轻量级卷积。其核心思想是：使用少量"固有"特征图，再通过廉价的线性操作（如深度卷积）生成更多的"幻影"特征图，从而在减少参数和计算量的同时，保持与标准卷积相近的表示能力。该模块在移动端和轻量级网络中效果显著。

代码实现

python 复制代码

import cv2
import math
import torch
import numpy as np
import matplotlib.pyplot as plt
from torch import nn

def autopad(k, p=None, d=1):  # kernel, padding, dilation
    """Pad to 'same' shape outputs."""
    if d > 1:
        k = d * (k - 1) + 1 if isinstance(k, int) else [d * (x - 1) + 1 for x in k]  # actual kernel-size
    if p is None:
        p = k // 2 if isinstance(k, int) else [x // 2 for x in k]  # auto-pad
    return p


class Conv(nn.Module):
    """Standard convolution module with batch normalization and activation.

    Attributes:
        conv (nn.Conv2d): Convolutional layer.
        bn (nn.BatchNorm2d): Batch normalization layer.
        act (nn.Module): Activation function layer.
        default_act (nn.Module): Default activation function (SiLU).
    """

    default_act = nn.SiLU()  # default activation

    def __init__(self, c1, c2, k=1, s=1, p=None, g=1, d=1, act=True):
        """Initialize Conv layer with given parameters.

        Args:
            c1 (int): Number of input channels.
            c2 (int): Number of output channels.
            k (int): Kernel size.
            s (int): Stride.
            p (int, optional): Padding.
            g (int): Groups.
            d (int): Dilation.
            act (bool | nn.Module): Activation function.
        """
        super().__init__()
        self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p, d), groups=g, dilation=d, bias=False)
        self.bn = nn.BatchNorm2d(c2)
        self.act = self.default_act if act is True else act if isinstance(act, nn.Module) else nn.Identity()

    def forward(self, x):
        """Apply convolution, batch normalization and activation to input tensor.

        Args:
            x (torch.Tensor): Input tensor.

        Returns:
            (torch.Tensor): Output tensor.
        """
        return self.act(self.bn(self.conv(x)))

    def forward_fuse(self, x):
        """Apply convolution and activation without batch normalization.

        Args:
            x (torch.Tensor): Input tensor.

        Returns:
            (torch.Tensor): Output tensor.
        """
        return self.act(self.conv(x))

class GhostConv(nn.Module):
    """Ghost Convolution module.

    Generates more features with fewer parameters by using cheap operations.

    Attributes:
        cv1 (Conv): Primary convolution.
        cv2 (Conv): Cheap operation convolution.

    References:
        https://github.com/huawei-noah/Efficient-AI-Backbones
    """

    def __init__(self, c1, c2, k=1, s=1, g=1, act=True):
        """Initialize Ghost Convolution module with given parameters.

        Args:
            c1 (int): Number of input channels.
            c2 (int): Number of output channels.
            k (int): Kernel size.
            s (int): Stride.
            g (int): Groups.
            act (bool | nn.Module): Activation function.
        """
        super().__init__()
        c_ = c2 // 2  # hidden channels
        self.cv1 = Conv(c1, c_, k, s, None, g, act=act)
        self.cv2 = Conv(c_, c_, 5, 1, None, c_, act=act)

    def forward(self, x):
        """Apply Ghost Convolution to input tensor.

        Args:
            x (torch.Tensor): Input tensor.

        Returns:
            (torch.Tensor): Output tensor with concatenated features.
        """
        y = self.cv1(x)
        return torch.cat((y, self.cv2(y)), 1)

功能

特征生成 ：首先使用标准卷积（cv1）生成一部分"固有"特征图（数量为 c2 // 2）；然后通过一个"便宜"的深度卷积（cv2，核大小 5×5，分组数等于通道数）生成额外的特征图；最后将两者在通道维度拼接，得到总数为 c2 的输出特征图。
参数高效 ：相比直接生成 c2 个通道的标准卷积，GhostConv 的参数量和计算量显著减少。
灵活配置：可自定义主卷积的核大小、步长、分组等参数，便宜操作固定为 5×5 深度卷积（可调整）。

初始化参数

参数	类型	说明
`c1`	int	输入通道数
`c2`	int	输出通道数
`k`	int	主卷积核大小（默认 1）
`s`	int	主卷积步长（默认 1）
`g`	int	主卷积的分组数（默认 1）
`act`	bool / nn.Module	激活函数（与 `Conv` 一致）

注意：c2 应为偶数，因为内部 c_ = c2 // 2 取半，若为奇数则可能丢失信息，实际使用中建议保持偶数。

前向方法

forward(x)：先通过 cv1 得到 y（形状 [B, c_, H_out, W_out]），然后通过 cv2 对 y 进行深度卷积，得到同样形状的输出，最后在通道维度拼接，得到 [B, 2*c_, H_out, W_out] = [B, c2, H_out, W_out]。

使用示例

python 复制代码

if __name__ == '__main__':
    # 1. 读取图像
    img_path = "cat_640x640.png"
    img_bgr = cv2.imread(img_path)
    if img_bgr is None:
        raise FileNotFoundError(f"图片 {img_path} 不存在！")

    # 2. 转为张量 (1,3,640,640)
    img_rgb = cv2.cvtColor(img_bgr, cv2.COLOR_BGR2RGB)
    img_tensor = torch.from_numpy(img_rgb).float().permute(2, 0, 1).unsqueeze(0)

    # 3. 创建 GhostConv 层：输入3通道，输出16通道，主卷积核3×3，步长2（下采样）
    ghost_layer = GhostConv(c1=3, c2=16, k=3, s=2, g=1, act=True)

    # 4. 前向传播
    with torch.no_grad():
        out = ghost_layer(img_tensor)
    print("输出形状:", out.shape)  # 预期 torch.Size([1, 16, 320, 320])

    # 5. 可视化第一个通道
    feat_map = out[0, 0, :, :].cpu().numpy()
    feat_map = (feat_map - feat_map.min()) / (feat_map.max() - feat_map.min() + 1e-8)
    feat_map = (feat_map * 255).astype(np.uint8)

    plt.figure(figsize=(10, 5))
    plt.subplot(1, 2, 1)
    plt.imshow(cv2.cvtColor(img_bgr, cv2.COLOR_BGR2RGB))
    plt.title("Original (640x640)")
    plt.axis("off")

    plt.subplot(1, 2, 2)
    plt.imshow(feat_map, cmap='gray')
    plt.title("GhostConv Output (320x320, Ch0)")
    plt.axis("off")

    plt.tight_layout()
    plt.savefig("ghostconv_output.png", dpi=150)
    # plt.show()
    print("可视化已保存为 ghostconv_output.png")

输出示例：

复制代码

输出形状: torch.Size([1, 16, 320, 320])
可视化已保存为 ghostconv_output.png

流程示意图

代码解读

`init` 方法

c_ = c2 // 2：决定固有特征图的数量，通常取输出通道的一半。
self.cv1 = Conv(c1, c_, k, s, None, g, act=act)：主卷积，负责生成固有特征。p=None 利用 autopad 自动填充。
self.cv2 = Conv(c_, c_, 5, 1, None, c_, act=act)：便宜操作，使用 5×5 的深度卷积（分组数 g=c_ 表示每个通道单独卷积），步长固定为 1（不改变空间尺寸），激活函数与 cv1 共用。

`forward` 方法

先 cv1 得 y，再对 y 做 cv2 得 z，最后拼接 y 和 z。

核心思想

标准卷积直接生成所有特征图，而 GhostConv 只生成一半，另一半通过更廉价的线性变换（深度卷积）获得。这减少了卷积核数量，降低了计算成本。

注意事项

输出通道必须为偶数 ：由于 c_ = c2 // 2，若 c2 为奇数，则拼接后通道数为 2*c_ 可能不等于 c2，导致错误。建议使用时保证 c2 % 2 == 0。
便宜操作的核大小：本实现固定为 5×5，这在 GhostNet 中被证明是较好的选择，但也可根据任务调整（如改为 3×3 或 7×7）以平衡精度和速度。
与标准深度可分离卷积的区别：深度可分离卷积是先深度卷积后点卷积，而 GhostConv 是先点卷积（主卷积）生成部分特征，再用深度卷积生成补充特征，本质不同。
分组数传递 ：g 参数仅影响主卷积，便宜操作自动使用 c_ 作为分组数（即深度卷积），实现了通道间隔离。
下采样控制 ：下采样由主卷积的步长 s 控制，便宜操作步长固定为 1，确保空间尺寸一致。

优缺点

优点

参数量和计算量显著减少：相比标准卷积，约可节省 50% 以上的参数，同时保持相近的精度。
特征多样性：通过固有特征和幻影特征的组合，增加了特征图的多样性，有助于提升模型表达能力。
即插即用：可直接替换网络中的标准卷积层，无需大幅修改网络结构。
硬件友好：深度卷积在移动端设备上已有良好优化，实际推理速度提升明显。

缺点

输出通道限制：必须为偶数，限制了设计自由度。
便宜操作固定：无法自适应调整核大小或类型，可能在不同任务上不是最优。
训练复杂度：多分支结构可能使训练初期收敛稍慢，需适当调整学习率。
对分组数的依赖 ：主卷积分组数 g 会影响特征融合方式，若设置不当可能降低效果。

在 YOLO 系列中，GhostConv 可用于替代骨干网络中的部分标准卷积（如 C2f 中的瓶颈卷积），以构建超轻量级模型（如 YOLOv8‑Ghost）。建议在实际部署前进行充分实验，以确定最佳替换位置和参数配置。

参考文献

$1$ https://docs.ultralytics.com/

$2$ https://github.com/ultralytics/ultralytics.git

由于本人水平有限，难免出现错漏，敬请批评改正。

更多精彩内容，可点击进入Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏、人工智能混合编程实践专栏或我的个人主页查看

YOLOs-CPP：一个免费开源的YOLO全系列C++推理库（以YOLO26为例）

PaddleOCR：Win10上安装使用PPOCRLabel标注工具

目标检测：使用自己的数据集微调DEIMv2进行物体检测

图像分割：PyTorch从零开始实现SegFormer语义分割

图像超分：使用自己的数据集微调Real-ESRGAN-x4plus进行超分重建

图像生成：PyTorch从零开始实现一个简单的扩散模型

Stable Diffusion：使用自己的数据集微调 Stable Diffusion 3.5 LoRA 文生图模型

图像超分：使用自己的数据集微调Real-ESRGAN-x2plus进行超分重建

Anomalib：使用Anomalib 2.1.0训练自己的数据集进行异常检测

Anomalib：在Linux服务器上安装使用Anomalib 2.1.0

人工智能混合编程实践：C++调用封装好的DLL进行异常检测推理

人工智能混合编程实践：C++调用封装好的DLL进行FP16图像超分重建（v3.0）

隔离系统Python：源码编译3.11.8到自定义目录（含PGO性能优化）

在线机的Python环境迁移到离线机上

Nuitka 将 Python 脚本封装为 .pyd 或 .so 文件

Ultralytics：使用 YOLO11 进行速度估计

Ultralytics：使用 YOLO11 进行物体追踪

Ultralytics：使用 YOLO11 进行物体计数

Ultralytics：使用 YOLO11 进行目标打码

人工智能混合编程实践：C++调用Python ONNX进行YOLOv8推理

人工智能混合编程实践：C++调用封装好的DLL进行YOLOv8实例分割

人工智能混合编程实践：C++调用Python ONNX进行图像超分重建

人工智能混合编程实践：C++调用Python AgentOCR进行文本识别

通过计算实例简单地理解PatchCore异常检测

Python将YOLO格式实例分割数据集转换为COCO格式实例分割数据集

YOLOv8 Ultralytics：使用Ultralytics框架训练RT-DETR实时目标检测模型

基于DETR的人脸伪装检测

YOLOv7训练自己的数据集（口罩检测）

YOLOv8训练自己的数据集（足球检测）

YOLOv5：TensorRT加速YOLOv5模型推理

YOLOv5：IoU、GIoU、DIoU、CIoU、EIoU

玩转Jetson Nano（五）：TensorRT加速YOLOv5目标检测

YOLOv5：添加SE、CBAM、CoordAtt、ECA注意力机制

YOLOv5：yolov5s.yaml配置文件解读、增加小目标检测层

Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集

YOLOv5：使用7.0版本训练自己的实例分割模型（车辆、行人、路标、车道线等实例分割）

使用Kaggle GPU资源免费体验Stable Diffusion开源项目

Stable Diffusion：在服务器上部署使用Stable Diffusion WebUI进行AI绘图（v2.0）

Stable Diffusion：使用自己的数据集微调训练LoRA模型（v2.0）

Ultralytics：解读GhostConv模块

Ultralytics：解读GhostConv模块

前言

相关介绍

Ultralytics 简介

前提条件

实验环境

GhostConv（Ghost 卷积模块）

代码实现

功能

初始化参数

前向方法

使用示例

流程示意图

代码解读

__init__ 方法

forward 方法

核心思想

注意事项

优缺点

优点

缺点

参考文献

`init` 方法

`forward` 方法