Ultralytics:解读GhostConv模块

Ultralytics:解读GhostConv模块

前言

相关介绍

Ultralytics 简介

Ultralytics 基于多年的计算机视觉和人工智能基础研究,创建了最先进的 (SOTA) YOLO 模型。我们的模型不断更新性能和灵活性,快速、准确且易于使用。他们擅长对象检测、跟踪、实例分割、语义分割、图像分类和姿势估计任务。

前提条件

  • 熟悉Python、Pytorch

实验环境

bash 复制代码
Package                  Version
------------------------ ------------
Python                   3.11.8
absl-py                  2.4.0
accelerate               1.13.0
annotated-doc            0.0.4
anyio                    4.13.0
calflops                 0.3.2
certifi                  2026.4.22
charset-normalizer       3.4.7
click                    8.3.3
colorama                 0.4.6
contourpy                1.3.3
cycler                   0.12.1
filelock                 3.29.0
flatbuffers              25.12.19
fonttools                4.62.1
fsspec                   2026.4.0
grpcio                   1.80.0
h11                      0.16.0
hf-xet                   1.5.0
httpcore                 1.0.9
httpx                    0.28.1
huggingface_hub          1.14.0
idna                     3.15
Jinja2                   3.1.6
kiwisolver               1.5.0
Markdown                 3.10.2
markdown-it-py           4.2.0
MarkupSafe               3.0.3
matplotlib               3.10.9
mdurl                    0.1.2
ml_dtypes                0.5.0
mpmath                   1.3.0
networkx                 3.6.1
numpy                    1.26.4
nvidia-cublas-cu12       12.8.3.14
nvidia-cuda-cupti-cu12   12.8.57
nvidia-cuda-nvrtc-cu12   12.8.61
nvidia-cuda-runtime-cu12 12.8.57
nvidia-cudnn-cu12        9.7.1.26
nvidia-cufft-cu12        11.3.3.41
nvidia-cufile-cu12       1.13.0.11
nvidia-curand-cu12       10.3.9.55
nvidia-cusolver-cu12     11.7.2.55
nvidia-cusparse-cu12     12.5.7.53
nvidia-cusparselt-cu12   0.6.3
nvidia-nccl-cu12         2.26.2
nvidia-nvjitlink-cu12    12.8.61
nvidia-nvtx-cu12         12.8.55
onnx                     1.19.0
onnxruntime-gpu          1.26.0
onnxslim                 0.1.94
opencv-python            4.6.0.66
packaging                26.2
pillow                   12.2.0
pip                      24.0
polars                   1.40.1
polars-runtime-32        1.40.1
protobuf                 7.34.1
psutil                   7.2.2
pycocotools              2.0.11
Pygments                 2.20.0
pyparsing                3.3.2
python-dateutil          2.9.0.post0
PyYAML                   6.0.3
regex                    2026.5.9
requests                 2.34.1
rich                     15.0.0
safetensors              0.7.0
scipy                    1.16.0
setuptools               65.5.0
shellingham              1.5.4
six                      1.17.0
sympy                    1.14.0
tabulate                 0.10.0
tensorboard              2.20.0
tensorboard-data-server  0.7.2
tokenizers               0.22.2
torch                    2.7.1+cu128
torchaudio               2.7.1+cu128
torchvision              0.22.1+cu128
tqdm                     4.67.3
transformers             5.8.1
triton                   3.3.1
typer                    0.25.1
typing_extensions        4.15.0
ultralytics              8.4.58
ultralytics-thop         2.0.19
urllib3                  2.7.0
Werkzeug                 3.1.8

GhostConv(Ghost 卷积模块)

GhostConv 是基于 GhostNet 论文中提出的 Ghost 模块实现的轻量级卷积。其核心思想是:使用少量"固有"特征图,再通过廉价的线性操作(如深度卷积)生成更多的"幻影"特征图,从而在减少参数和计算量的同时,保持与标准卷积相近的表示能力。该模块在移动端和轻量级网络中效果显著。


代码实现

python 复制代码
import cv2
import math
import torch
import numpy as np
import matplotlib.pyplot as plt
from torch import nn

def autopad(k, p=None, d=1):  # kernel, padding, dilation
    """Pad to 'same' shape outputs."""
    if d > 1:
        k = d * (k - 1) + 1 if isinstance(k, int) else [d * (x - 1) + 1 for x in k]  # actual kernel-size
    if p is None:
        p = k // 2 if isinstance(k, int) else [x // 2 for x in k]  # auto-pad
    return p


class Conv(nn.Module):
    """Standard convolution module with batch normalization and activation.

    Attributes:
        conv (nn.Conv2d): Convolutional layer.
        bn (nn.BatchNorm2d): Batch normalization layer.
        act (nn.Module): Activation function layer.
        default_act (nn.Module): Default activation function (SiLU).
    """

    default_act = nn.SiLU()  # default activation

    def __init__(self, c1, c2, k=1, s=1, p=None, g=1, d=1, act=True):
        """Initialize Conv layer with given parameters.

        Args:
            c1 (int): Number of input channels.
            c2 (int): Number of output channels.
            k (int): Kernel size.
            s (int): Stride.
            p (int, optional): Padding.
            g (int): Groups.
            d (int): Dilation.
            act (bool | nn.Module): Activation function.
        """
        super().__init__()
        self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p, d), groups=g, dilation=d, bias=False)
        self.bn = nn.BatchNorm2d(c2)
        self.act = self.default_act if act is True else act if isinstance(act, nn.Module) else nn.Identity()

    def forward(self, x):
        """Apply convolution, batch normalization and activation to input tensor.

        Args:
            x (torch.Tensor): Input tensor.

        Returns:
            (torch.Tensor): Output tensor.
        """
        return self.act(self.bn(self.conv(x)))

    def forward_fuse(self, x):
        """Apply convolution and activation without batch normalization.

        Args:
            x (torch.Tensor): Input tensor.

        Returns:
            (torch.Tensor): Output tensor.
        """
        return self.act(self.conv(x))

class GhostConv(nn.Module):
    """Ghost Convolution module.

    Generates more features with fewer parameters by using cheap operations.

    Attributes:
        cv1 (Conv): Primary convolution.
        cv2 (Conv): Cheap operation convolution.

    References:
        https://github.com/huawei-noah/Efficient-AI-Backbones
    """

    def __init__(self, c1, c2, k=1, s=1, g=1, act=True):
        """Initialize Ghost Convolution module with given parameters.

        Args:
            c1 (int): Number of input channels.
            c2 (int): Number of output channels.
            k (int): Kernel size.
            s (int): Stride.
            g (int): Groups.
            act (bool | nn.Module): Activation function.
        """
        super().__init__()
        c_ = c2 // 2  # hidden channels
        self.cv1 = Conv(c1, c_, k, s, None, g, act=act)
        self.cv2 = Conv(c_, c_, 5, 1, None, c_, act=act)

    def forward(self, x):
        """Apply Ghost Convolution to input tensor.

        Args:
            x (torch.Tensor): Input tensor.

        Returns:
            (torch.Tensor): Output tensor with concatenated features.
        """
        y = self.cv1(x)
        return torch.cat((y, self.cv2(y)), 1)

功能

  • 特征生成 :首先使用标准卷积(cv1)生成一部分"固有"特征图(数量为 c2 // 2);然后通过一个"便宜"的深度卷积(cv2,核大小 5×5,分组数等于通道数)生成额外的特征图;最后将两者在通道维度拼接,得到总数为 c2 的输出特征图。
  • 参数高效 :相比直接生成 c2 个通道的标准卷积,GhostConv 的参数量和计算量显著减少。
  • 灵活配置:可自定义主卷积的核大小、步长、分组等参数,便宜操作固定为 5×5 深度卷积(可调整)。

初始化参数

参数 类型 说明
c1 int 输入通道数
c2 int 输出通道数
k int 主卷积核大小(默认 1)
s int 主卷积步长(默认 1)
g int 主卷积的分组数(默认 1)
act bool / nn.Module 激活函数(与 Conv 一致)

注意:c2 应为偶数,因为内部 c_ = c2 // 2 取半,若为奇数则可能丢失信息,实际使用中建议保持偶数。


前向方法

  • forward(x):先通过 cv1 得到 y(形状 [B, c_, H_out, W_out]),然后通过 cv2y 进行深度卷积,得到同样形状的输出,最后在通道维度拼接,得到 [B, 2*c_, H_out, W_out] = [B, c2, H_out, W_out]

使用示例

python 复制代码
if __name__ == '__main__':
    # 1. 读取图像
    img_path = "cat_640x640.png"
    img_bgr = cv2.imread(img_path)
    if img_bgr is None:
        raise FileNotFoundError(f"图片 {img_path} 不存在!")

    # 2. 转为张量 (1,3,640,640)
    img_rgb = cv2.cvtColor(img_bgr, cv2.COLOR_BGR2RGB)
    img_tensor = torch.from_numpy(img_rgb).float().permute(2, 0, 1).unsqueeze(0)

    # 3. 创建 GhostConv 层:输入3通道,输出16通道,主卷积核3×3,步长2(下采样)
    ghost_layer = GhostConv(c1=3, c2=16, k=3, s=2, g=1, act=True)

    # 4. 前向传播
    with torch.no_grad():
        out = ghost_layer(img_tensor)
    print("输出形状:", out.shape)  # 预期 torch.Size([1, 16, 320, 320])

    # 5. 可视化第一个通道
    feat_map = out[0, 0, :, :].cpu().numpy()
    feat_map = (feat_map - feat_map.min()) / (feat_map.max() - feat_map.min() + 1e-8)
    feat_map = (feat_map * 255).astype(np.uint8)

    plt.figure(figsize=(10, 5))
    plt.subplot(1, 2, 1)
    plt.imshow(cv2.cvtColor(img_bgr, cv2.COLOR_BGR2RGB))
    plt.title("Original (640x640)")
    plt.axis("off")

    plt.subplot(1, 2, 2)
    plt.imshow(feat_map, cmap='gray')
    plt.title("GhostConv Output (320x320, Ch0)")
    plt.axis("off")

    plt.tight_layout()
    plt.savefig("ghostconv_output.png", dpi=150)
    # plt.show()
    print("可视化已保存为 ghostconv_output.png")

输出示例

复制代码
输出形状: torch.Size([1, 16, 320, 320])
可视化已保存为 ghostconv_output.png

流程示意图


代码解读

__init__ 方法
  • c_ = c2 // 2:决定固有特征图的数量,通常取输出通道的一半。
  • self.cv1 = Conv(c1, c_, k, s, None, g, act=act):主卷积,负责生成固有特征。p=None 利用 autopad 自动填充。
  • self.cv2 = Conv(c_, c_, 5, 1, None, c_, act=act):便宜操作,使用 5×5 的深度卷积(分组数 g=c_ 表示每个通道单独卷积),步长固定为 1(不改变空间尺寸),激活函数与 cv1 共用。
forward 方法
  • cv1y,再对 ycv2z,最后拼接 yz
核心思想
  • 标准卷积直接生成所有特征图,而 GhostConv 只生成一半,另一半通过更廉价的线性变换(深度卷积)获得。这减少了卷积核数量,降低了计算成本。

注意事项

  1. 输出通道必须为偶数 :由于 c_ = c2 // 2,若 c2 为奇数,则拼接后通道数为 2*c_ 可能不等于 c2,导致错误。建议使用时保证 c2 % 2 == 0
  2. 便宜操作的核大小:本实现固定为 5×5,这在 GhostNet 中被证明是较好的选择,但也可根据任务调整(如改为 3×3 或 7×7)以平衡精度和速度。
  3. 与标准深度可分离卷积的区别:深度可分离卷积是先深度卷积后点卷积,而 GhostConv 是先点卷积(主卷积)生成部分特征,再用深度卷积生成补充特征,本质不同。
  4. 分组数传递g 参数仅影响主卷积,便宜操作自动使用 c_ 作为分组数(即深度卷积),实现了通道间隔离。
  5. 下采样控制 :下采样由主卷积的步长 s 控制,便宜操作步长固定为 1,确保空间尺寸一致。

优缺点

优点
  1. 参数量和计算量显著减少:相比标准卷积,约可节省 50% 以上的参数,同时保持相近的精度。
  2. 特征多样性:通过固有特征和幻影特征的组合,增加了特征图的多样性,有助于提升模型表达能力。
  3. 即插即用:可直接替换网络中的标准卷积层,无需大幅修改网络结构。
  4. 硬件友好:深度卷积在移动端设备上已有良好优化,实际推理速度提升明显。
缺点
  1. 输出通道限制:必须为偶数,限制了设计自由度。
  2. 便宜操作固定:无法自适应调整核大小或类型,可能在不同任务上不是最优。
  3. 训练复杂度:多分支结构可能使训练初期收敛稍慢,需适当调整学习率。
  4. 对分组数的依赖 :主卷积分组数 g 会影响特征融合方式,若设置不当可能降低效果。

在 YOLO 系列中,GhostConv 可用于替代骨干网络中的部分标准卷积(如 C2f 中的瓶颈卷积),以构建超轻量级模型(如 YOLOv8‑Ghost)。建议在实际部署前进行充分实验,以确定最佳替换位置和参数配置。

参考文献

1 https://docs.ultralytics.com/

2 https://github.com/ultralytics/ultralytics.git