Ultralytics:解读MLPBlock模块

Ultralytics:解读MLPBlock模块

前言

相关介绍

Ultralytics 简介

Ultralytics 基于多年的计算机视觉和人工智能基础研究,创建了最先进的 (SOTA) YOLO 模型。我们的模型不断更新性能和灵活性,快速、准确且易于使用。他们擅长对象检测、跟踪、实例分割、语义分割、图像分类和姿势估计任务。

前提条件

  • 熟悉Python、Pytorch

实验环境

bash 复制代码
Package                  Version
------------------------ ------------
Python                   3.11.8
absl-py                  2.4.0
accelerate               1.13.0
annotated-doc            0.0.4
anyio                    4.13.0
calflops                 0.3.2
certifi                  2026.4.22
charset-normalizer       3.4.7
click                    8.3.3
colorama                 0.4.6
contourpy                1.3.3
cycler                   0.12.1
filelock                 3.29.0
flatbuffers              25.12.19
fonttools                4.62.1
fsspec                   2026.4.0
grpcio                   1.80.0
h11                      0.16.0
hf-xet                   1.5.0
httpcore                 1.0.9
httpx                    0.28.1
huggingface_hub          1.14.0
idna                     3.15
Jinja2                   3.1.6
kiwisolver               1.5.0
Markdown                 3.10.2
markdown-it-py           4.2.0
MarkupSafe               3.0.3
matplotlib               3.10.9
mdurl                    0.1.2
ml_dtypes                0.5.0
mpmath                   1.3.0
networkx                 3.6.1
numpy                    1.26.4
nvidia-cublas-cu12       12.8.3.14
nvidia-cuda-cupti-cu12   12.8.57
nvidia-cuda-nvrtc-cu12   12.8.61
nvidia-cuda-runtime-cu12 12.8.57
nvidia-cudnn-cu12        9.7.1.26
nvidia-cufft-cu12        11.3.3.41
nvidia-cufile-cu12       1.13.0.11
nvidia-curand-cu12       10.3.9.55
nvidia-cusolver-cu12     11.7.2.55
nvidia-cusparse-cu12     12.5.7.53
nvidia-cusparselt-cu12   0.6.3
nvidia-nccl-cu12         2.26.2
nvidia-nvjitlink-cu12    12.8.61
nvidia-nvtx-cu12         12.8.55
onnx                     1.19.0
onnxruntime-gpu          1.26.0
onnxslim                 0.1.94
opencv-python            4.6.0.66
packaging                26.2
pillow                   12.2.0
pip                      24.0
polars                   1.40.1
polars-runtime-32        1.40.1
protobuf                 7.34.1
psutil                   7.2.2
pycocotools              2.0.11
Pygments                 2.20.0
pyparsing                3.3.2
python-dateutil          2.9.0.post0
PyYAML                   6.0.3
regex                    2026.5.9
requests                 2.34.1
rich                     15.0.0
safetensors              0.7.0
scipy                    1.16.0
setuptools               65.5.0
shellingham              1.5.4
six                      1.17.0
sympy                    1.14.0
tabulate                 0.10.0
tensorboard              2.20.0
tensorboard-data-server  0.7.2
tokenizers               0.22.2
torch                    2.7.1+cu128
torchaudio               2.7.1+cu128
torchvision              0.22.1+cu128
tqdm                     4.67.3
transformers             5.8.1
triton                   3.3.1
typer                    0.25.1
typing_extensions        4.15.0
ultralytics              8.4.58
ultralytics-thop         2.0.19
urllib3                  2.7.0
Werkzeug                 3.1.8

MLPBlock(多层感知机块)

MLPBlock 是一个标准的 两层前馈网络 (Feed-Forward Network),广泛应用于 Transformer 架构中。它先将输入从 embedding_dim 映射到更大的隐藏维度 mlp_dim,通过激活函数后,再映射回 embedding_dim。这种 膨胀-收缩 结构增加了模型的非线性表达能力,是 Transformer 编码器和解码器层的核心组件之一。


代码实现

python 复制代码
import cv2
import math
import torch
import numpy as np
import matplotlib.pyplot as plt
from torch import nn

class MLPBlock(nn.Module):
    """A single block of a multi-layer perceptron."""

    def __init__(self, embedding_dim: int, mlp_dim: int, act=nn.GELU):
        """Initialize the MLPBlock with specified embedding dimension, MLP dimension, and activation function.

        Args:
            embedding_dim (int): Input and output dimension.
            mlp_dim (int): Hidden dimension.
            act (type): Activation function class.
        """
        super().__init__()
        self.lin1 = nn.Linear(embedding_dim, mlp_dim)
        self.lin2 = nn.Linear(mlp_dim, embedding_dim)
        self.act = act()

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        """Forward pass for the MLPBlock.

        Args:
            x (torch.Tensor): Input tensor.

        Returns:
            (torch.Tensor): Output tensor after MLP block.
        """
        return self.lin2(self.act(self.lin1(x)))

功能

  • 特征变换 :对输入张量进行 embedding_dim → mlp_dim → embedding_dim 的线性变换,中间插入激活函数(默认为 GELU),增强非线性。
  • 参数高效:相比单个线性层,膨胀-收缩结构能学习更丰富的特征表示,是 Transformer 中不可或缺的非线性模块。
  • 即插即用:可嵌入到各种网络架构中,例如 Transformer 的 FFN、MLP-Mixer 等。

初始化参数

参数 类型 说明
embedding_dim int 输入和输出特征维度
mlp_dim int 隐藏层维度(通常设置为 embedding_dim 的 4 倍)
act type(类) 激活函数类(默认 nn.GELU),需是无参数实例化的类

注意:act 传入的是类(如 nn.GELU),在 __init__ 中实例化。


前向方法

  • forward(x):输入 x(形状任意,但最后一维必须为 embedding_dim),输出形状相同。

计算流程

  1. lin1embedding_dim → mlp_dim
  2. 激活函数(如 GELU)
  3. lin2mlp_dim → embedding_dim

使用示例

python 复制代码
if __name__ == '__main__':
    # 1. 设置参数
    embedding_dim, mlp_dim = 128, 512
    batch_size, seq_len = 2, 10

    # 2. 创建 MLPBlock
    mlp = MLPBlock(embedding_dim, mlp_dim, act=nn.GELU)

    # 3. 随机输入(无需梯度)
    x = torch.randn(batch_size, seq_len, embedding_dim)
    with torch.no_grad():
        out = mlp(x)
    print("输入形状:", x.shape)   # [2, 10, 128]
    print("输出形状:", out.shape) # [2, 10, 128]

    # 4. 使用真实图像演示(展平为序列)
    img_path = "cat_640x640.png"  # 请替换为实际路径
    img_bgr = cv2.imread(img_path)
    if img_bgr is not None:
        # 缩放到 32x32 并转为灰度
        img_gray = cv2.cvtColor(cv2.resize(img_bgr, (32, 32)), cv2.COLOR_BGR2GRAY)
        # 转为张量 [1, 1, 32, 32]
        img_tensor = torch.from_numpy(img_gray).float().unsqueeze(0).unsqueeze(0)
        # 展平为序列 [1, 1024, 1]
        seq = img_tensor.flatten(2).permute(0, 2, 1)  # [1, 1024, 1]

        # 由于 embedding_dim=128,需先通过线性层映射
        # 为了演示,我们创建一个不可训练(或使用 eval 模式)的线性层
        proj = nn.Linear(1, embedding_dim)
        # 可选:直接使用随机初始化的投影,但不更新梯度
        with torch.no_grad():
            seq_proj = proj(seq)  # [1, 1024, 128]
            out_seq = mlp(seq_proj)  # [1, 1024, 128]

        # 提取第一个特征通道并重塑为 32x32
        out_img = out_seq[0, :, 0].reshape(32, 32).cpu().detach().numpy()
        inp_img = seq_proj[0, :, 0].reshape(32, 32).cpu().detach().numpy()

        # 归一化显示
        def norm(arr):
            return (arr - arr.min()) / (arr.max() - arr.min() + 1e-8)

        plt.figure(figsize=(12, 5), constrained_layout=True)
        plt.subplot(1, 3, 1)
        plt.imshow(img_gray, cmap='gray')
        plt.title("Original Gray")
        plt.axis("off")
        plt.subplot(1, 3, 2)
        plt.imshow(norm(inp_img), cmap='gray')
        plt.title("Projected (Ch0)")
        plt.axis("off")
        plt.subplot(1, 3, 3)
        plt.imshow(norm(out_img), cmap='gray')
        plt.title("After MLP (Ch0)")
        plt.axis("off")
        plt.savefig("mlpblock_demo.png", dpi=150)
        print("可视化已保存为 mlpblock_demo.png")

输出示例

复制代码
输入形状: torch.Size([2, 10, 128])
输出形状: torch.Size([2, 10, 128])
可视化已保存为 mlpblock_demo.png

流程示意图


代码解读

  • __init__ :定义两个线性层 lin1lin2,以及激活函数 act。注意 act 参数传入的是类(如 nn.GELU),在内部实例化。
  • forward :顺序执行 lin1 → 激活 → lin2。输入输出维度不变,且支持任意形状(只要最后一维为 embedding_dim)。

注意事项

  1. 隐藏维度通常较大 :在 Transformer 中,mlp_dim 通常设置为 embedding_dim 的 4 倍(如 512 → 2048),以增强表达能力。
  2. 无偏置或 Dropout :本实现中线性层默认带偏置(bias=True),但未包含 Dropout。若需要正则化,可在 lin1lin2 后添加 Dropout 层。
  3. 激活函数选择:GELU 是 Transformer 中最常用的激活函数,也可替换为 ReLU、SiLU 等。
  4. 与残差连接配合MLPBlock 本身不包含残差,通常在外部与输入相加(如 Transformer 中的 x + MLP(LN(x)))。
  5. 输入维度要求 :输入张量的最后一维必须等于 embedding_dim,否则会报错。

优缺点

优点
  1. 非线性增强:膨胀-收缩结构引入大量参数和非线性,提升了模型容量。
  2. 简单通用:实现简洁,可轻松嵌入各种架构。
  3. 可调节容量 :通过调整 mlp_dim 控制模型复杂度。
  4. 高效实现:线性层在 GPU 上计算效率高。
缺点
  1. 参数较多 :当 mlp_dim 较大时(如 4×embedding_dim),参数量占 Transformer 层的 2/3 以上。
  2. 缺少正则化:无 Dropout,容易过拟合,需外部添加。
  3. 无残差:若外部不添加残差,梯度可能消失(但通常有残差结构)。
  4. 固定激活函数:激活函数在初始化时固定,无法根据输入动态调整。

在 YOLO 或 RT-DETR 等模型中,MLPBlock 通常作为 TransformerLayerAIFI 内部的前馈网络。使用时可根据任务调整 mlp_dim,并在训练时加入适当的 Dropout 和 LayerNorm。

参考文献

1 https://docs.ultralytics.com/

2 https://github.com/ultralytics/ultralytics.git