Ultralytics：解读MLPBlock模块

前言
相关介绍
- [Ultralytics 简介](#Ultralytics 简介)
前提条件
实验环境
MLPBlock（多层感知机块）
参考文献

前言

由于本人水平有限，难免出现错漏，敬请批评改正。

更多精彩内容，可点击进入Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏、人工智能混合编程实践专栏或我的个人主页查看

YOLOs-CPP：一个免费开源的YOLO全系列C++推理库（以YOLO26为例）

PaddleOCR：Win10上安装使用PPOCRLabel标注工具

目标检测：使用自己的数据集微调DEIMv2进行物体检测

图像分割：PyTorch从零开始实现SegFormer语义分割

图像超分：使用自己的数据集微调Real-ESRGAN-x4plus进行超分重建

图像生成：PyTorch从零开始实现一个简单的扩散模型

Stable Diffusion：使用自己的数据集微调 Stable Diffusion 3.5 LoRA 文生图模型

图像超分：使用自己的数据集微调Real-ESRGAN-x2plus进行超分重建

Anomalib：使用Anomalib 2.1.0训练自己的数据集进行异常检测

Anomalib：在Linux服务器上安装使用Anomalib 2.1.0

人工智能混合编程实践：C++调用封装好的DLL进行异常检测推理

人工智能混合编程实践：C++调用封装好的DLL进行FP16图像超分重建（v3.0）

隔离系统Python：源码编译3.11.8到自定义目录（含PGO性能优化）

在线机的Python环境迁移到离线机上

Nuitka 将 Python 脚本封装为 .pyd 或 .so 文件

Ultralytics：使用 YOLO11 进行速度估计

Ultralytics：使用 YOLO11 进行物体追踪

Ultralytics：使用 YOLO11 进行物体计数

Ultralytics：使用 YOLO11 进行目标打码

人工智能混合编程实践：C++调用Python ONNX进行YOLOv8推理

人工智能混合编程实践：C++调用封装好的DLL进行YOLOv8实例分割

人工智能混合编程实践：C++调用Python ONNX进行图像超分重建

人工智能混合编程实践：C++调用Python AgentOCR进行文本识别

通过计算实例简单地理解PatchCore异常检测

Python将YOLO格式实例分割数据集转换为COCO格式实例分割数据集

YOLOv8 Ultralytics：使用Ultralytics框架训练RT-DETR实时目标检测模型

基于DETR的人脸伪装检测

YOLOv7训练自己的数据集（口罩检测）

YOLOv8训练自己的数据集（足球检测）

YOLOv5：TensorRT加速YOLOv5模型推理

YOLOv5：IoU、GIoU、DIoU、CIoU、EIoU

玩转Jetson Nano（五）：TensorRT加速YOLOv5目标检测

YOLOv5：添加SE、CBAM、CoordAtt、ECA注意力机制

YOLOv5：yolov5s.yaml配置文件解读、增加小目标检测层

Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集

YOLOv5：使用7.0版本训练自己的实例分割模型（车辆、行人、路标、车道线等实例分割）

使用Kaggle GPU资源免费体验Stable Diffusion开源项目

Stable Diffusion：在服务器上部署使用Stable Diffusion WebUI进行AI绘图（v2.0）

Stable Diffusion：使用自己的数据集微调训练LoRA模型（v2.0）

前提条件

熟悉Python、Pytorch

实验环境

bash 复制代码

Package                  Version
------------------------ ------------
Python                   3.11.8
absl-py                  2.4.0
accelerate               1.13.0
annotated-doc            0.0.4
anyio                    4.13.0
calflops                 0.3.2
certifi                  2026.4.22
charset-normalizer       3.4.7
click                    8.3.3
colorama                 0.4.6
contourpy                1.3.3
cycler                   0.12.1
filelock                 3.29.0
flatbuffers              25.12.19
fonttools                4.62.1
fsspec                   2026.4.0
grpcio                   1.80.0
h11                      0.16.0
hf-xet                   1.5.0
httpcore                 1.0.9
httpx                    0.28.1
huggingface_hub          1.14.0
idna                     3.15
Jinja2                   3.1.6
kiwisolver               1.5.0
Markdown                 3.10.2
markdown-it-py           4.2.0
MarkupSafe               3.0.3
matplotlib               3.10.9
mdurl                    0.1.2
ml_dtypes                0.5.0
mpmath                   1.3.0
networkx                 3.6.1
numpy                    1.26.4
nvidia-cublas-cu12       12.8.3.14
nvidia-cuda-cupti-cu12   12.8.57
nvidia-cuda-nvrtc-cu12   12.8.61
nvidia-cuda-runtime-cu12 12.8.57
nvidia-cudnn-cu12        9.7.1.26
nvidia-cufft-cu12        11.3.3.41
nvidia-cufile-cu12       1.13.0.11
nvidia-curand-cu12       10.3.9.55
nvidia-cusolver-cu12     11.7.2.55
nvidia-cusparse-cu12     12.5.7.53
nvidia-cusparselt-cu12   0.6.3
nvidia-nccl-cu12         2.26.2
nvidia-nvjitlink-cu12    12.8.61
nvidia-nvtx-cu12         12.8.55
onnx                     1.19.0
onnxruntime-gpu          1.26.0
onnxslim                 0.1.94
opencv-python            4.6.0.66
packaging                26.2
pillow                   12.2.0
pip                      24.0
polars                   1.40.1
polars-runtime-32        1.40.1
protobuf                 7.34.1
psutil                   7.2.2
pycocotools              2.0.11
Pygments                 2.20.0
pyparsing                3.3.2
python-dateutil          2.9.0.post0
PyYAML                   6.0.3
regex                    2026.5.9
requests                 2.34.1
rich                     15.0.0
safetensors              0.7.0
scipy                    1.16.0
setuptools               65.5.0
shellingham              1.5.4
six                      1.17.0
sympy                    1.14.0
tabulate                 0.10.0
tensorboard              2.20.0
tensorboard-data-server  0.7.2
tokenizers               0.22.2
torch                    2.7.1+cu128
torchaudio               2.7.1+cu128
torchvision              0.22.1+cu128
tqdm                     4.67.3
transformers             5.8.1
triton                   3.3.1
typer                    0.25.1
typing_extensions        4.15.0
ultralytics              8.4.58
ultralytics-thop         2.0.19
urllib3                  2.7.0
Werkzeug                 3.1.8

MLPBlock（多层感知机块）

MLPBlock 是一个标准的 两层前馈网络 （Feed-Forward Network），广泛应用于 Transformer 架构中。它先将输入从 embedding_dim 映射到更大的隐藏维度 mlp_dim，通过激活函数后，再映射回 embedding_dim。这种 膨胀-收缩 结构增加了模型的非线性表达能力，是 Transformer 编码器和解码器层的核心组件之一。

代码实现

python 复制代码

import cv2
import math
import torch
import numpy as np
import matplotlib.pyplot as plt
from torch import nn

class MLPBlock(nn.Module):
    """A single block of a multi-layer perceptron."""

    def __init__(self, embedding_dim: int, mlp_dim: int, act=nn.GELU):
        """Initialize the MLPBlock with specified embedding dimension, MLP dimension, and activation function.

        Args:
            embedding_dim (int): Input and output dimension.
            mlp_dim (int): Hidden dimension.
            act (type): Activation function class.
        """
        super().__init__()
        self.lin1 = nn.Linear(embedding_dim, mlp_dim)
        self.lin2 = nn.Linear(mlp_dim, embedding_dim)
        self.act = act()

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        """Forward pass for the MLPBlock.

        Args:
            x (torch.Tensor): Input tensor.

        Returns:
            (torch.Tensor): Output tensor after MLP block.
        """
        return self.lin2(self.act(self.lin1(x)))

功能

特征变换 ：对输入张量进行 embedding_dim → mlp_dim → embedding_dim 的线性变换，中间插入激活函数（默认为 GELU），增强非线性。
参数高效：相比单个线性层，膨胀-收缩结构能学习更丰富的特征表示，是 Transformer 中不可或缺的非线性模块。
即插即用：可嵌入到各种网络架构中，例如 Transformer 的 FFN、MLP-Mixer 等。

初始化参数

参数	类型	说明
`embedding_dim`	int	输入和输出特征维度
`mlp_dim`	int	隐藏层维度（通常设置为 `embedding_dim` 的 4 倍）
`act`	type（类）	激活函数类（默认 `nn.GELU`），需是无参数实例化的类

注意：act 传入的是类（如 nn.GELU），在 __init__ 中实例化。

前向方法

forward(x)：输入 x（形状任意，但最后一维必须为 embedding_dim），输出形状相同。

计算流程：

lin1：embedding_dim → mlp_dim
激活函数（如 GELU）
lin2：mlp_dim → embedding_dim

使用示例

python 复制代码

if __name__ == '__main__':
    # 1. 设置参数
    embedding_dim, mlp_dim = 128, 512
    batch_size, seq_len = 2, 10

    # 2. 创建 MLPBlock
    mlp = MLPBlock(embedding_dim, mlp_dim, act=nn.GELU)

    # 3. 随机输入（无需梯度）
    x = torch.randn(batch_size, seq_len, embedding_dim)
    with torch.no_grad():
        out = mlp(x)
    print("输入形状:", x.shape)   # [2, 10, 128]
    print("输出形状:", out.shape) # [2, 10, 128]

    # 4. 使用真实图像演示（展平为序列）
    img_path = "cat_640x640.png"  # 请替换为实际路径
    img_bgr = cv2.imread(img_path)
    if img_bgr is not None:
        # 缩放到 32x32 并转为灰度
        img_gray = cv2.cvtColor(cv2.resize(img_bgr, (32, 32)), cv2.COLOR_BGR2GRAY)
        # 转为张量 [1, 1, 32, 32]
        img_tensor = torch.from_numpy(img_gray).float().unsqueeze(0).unsqueeze(0)
        # 展平为序列 [1, 1024, 1]
        seq = img_tensor.flatten(2).permute(0, 2, 1)  # [1, 1024, 1]

        # 由于 embedding_dim=128，需先通过线性层映射
        # 为了演示，我们创建一个不可训练（或使用 eval 模式）的线性层
        proj = nn.Linear(1, embedding_dim)
        # 可选：直接使用随机初始化的投影，但不更新梯度
        with torch.no_grad():
            seq_proj = proj(seq)  # [1, 1024, 128]
            out_seq = mlp(seq_proj)  # [1, 1024, 128]

        # 提取第一个特征通道并重塑为 32x32
        out_img = out_seq[0, :, 0].reshape(32, 32).cpu().detach().numpy()
        inp_img = seq_proj[0, :, 0].reshape(32, 32).cpu().detach().numpy()

        # 归一化显示
        def norm(arr):
            return (arr - arr.min()) / (arr.max() - arr.min() + 1e-8)

        plt.figure(figsize=(12, 5), constrained_layout=True)
        plt.subplot(1, 3, 1)
        plt.imshow(img_gray, cmap='gray')
        plt.title("Original Gray")
        plt.axis("off")
        plt.subplot(1, 3, 2)
        plt.imshow(norm(inp_img), cmap='gray')
        plt.title("Projected (Ch0)")
        plt.axis("off")
        plt.subplot(1, 3, 3)
        plt.imshow(norm(out_img), cmap='gray')
        plt.title("After MLP (Ch0)")
        plt.axis("off")
        plt.savefig("mlpblock_demo.png", dpi=150)
        print("可视化已保存为 mlpblock_demo.png")

输出示例：

复制代码

输入形状: torch.Size([2, 10, 128])
输出形状: torch.Size([2, 10, 128])
可视化已保存为 mlpblock_demo.png

流程示意图

代码解读

__init__ ：定义两个线性层 lin1 和 lin2，以及激活函数 act。注意 act 参数传入的是类（如 nn.GELU），在内部实例化。
forward ：顺序执行 lin1 → 激活 → lin2。输入输出维度不变，且支持任意形状（只要最后一维为 embedding_dim）。

注意事项

隐藏维度通常较大 ：在 Transformer 中，mlp_dim 通常设置为 embedding_dim 的 4 倍（如 512 → 2048），以增强表达能力。
无偏置或 Dropout ：本实现中线性层默认带偏置（bias=True），但未包含 Dropout。若需要正则化，可在 lin1 和 lin2 后添加 Dropout 层。
激活函数选择：GELU 是 Transformer 中最常用的激活函数，也可替换为 ReLU、SiLU 等。
与残差连接配合 ：MLPBlock 本身不包含残差，通常在外部与输入相加（如 Transformer 中的 x + MLP(LN(x))）。
输入维度要求 ：输入张量的最后一维必须等于 embedding_dim，否则会报错。

优缺点

优点

非线性增强：膨胀-收缩结构引入大量参数和非线性，提升了模型容量。
简单通用：实现简洁，可轻松嵌入各种架构。
可调节容量 ：通过调整 mlp_dim 控制模型复杂度。
高效实现：线性层在 GPU 上计算效率高。

缺点

参数较多 ：当 mlp_dim 较大时（如 4×embedding_dim），参数量占 Transformer 层的 2/3 以上。
缺少正则化：无 Dropout，容易过拟合，需外部添加。
无残差：若外部不添加残差，梯度可能消失（但通常有残差结构）。
固定激活函数：激活函数在初始化时固定，无法根据输入动态调整。

在 YOLO 或 RT-DETR 等模型中，MLPBlock 通常作为 TransformerLayer 或 AIFI 内部的前馈网络。使用时可根据任务调整 mlp_dim，并在训练时加入适当的 Dropout 和 LayerNorm。

参考文献

$1$ https://docs.ultralytics.com/

$2$ https://github.com/ultralytics/ultralytics.git

由于本人水平有限，难免出现错漏，敬请批评改正。

更多精彩内容，可点击进入Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏、人工智能混合编程实践专栏或我的个人主页查看

YOLOs-CPP：一个免费开源的YOLO全系列C++推理库（以YOLO26为例）

PaddleOCR：Win10上安装使用PPOCRLabel标注工具

目标检测：使用自己的数据集微调DEIMv2进行物体检测

图像分割：PyTorch从零开始实现SegFormer语义分割

图像超分：使用自己的数据集微调Real-ESRGAN-x4plus进行超分重建

图像生成：PyTorch从零开始实现一个简单的扩散模型

Stable Diffusion：使用自己的数据集微调 Stable Diffusion 3.5 LoRA 文生图模型

图像超分：使用自己的数据集微调Real-ESRGAN-x2plus进行超分重建

Anomalib：使用Anomalib 2.1.0训练自己的数据集进行异常检测

Anomalib：在Linux服务器上安装使用Anomalib 2.1.0

人工智能混合编程实践：C++调用封装好的DLL进行异常检测推理

人工智能混合编程实践：C++调用封装好的DLL进行FP16图像超分重建（v3.0）

隔离系统Python：源码编译3.11.8到自定义目录（含PGO性能优化）

在线机的Python环境迁移到离线机上

Nuitka 将 Python 脚本封装为 .pyd 或 .so 文件

Ultralytics：使用 YOLO11 进行速度估计

Ultralytics：使用 YOLO11 进行物体追踪

Ultralytics：使用 YOLO11 进行物体计数

Ultralytics：使用 YOLO11 进行目标打码

人工智能混合编程实践：C++调用Python ONNX进行YOLOv8推理

人工智能混合编程实践：C++调用封装好的DLL进行YOLOv8实例分割

人工智能混合编程实践：C++调用Python ONNX进行图像超分重建

人工智能混合编程实践：C++调用Python AgentOCR进行文本识别

通过计算实例简单地理解PatchCore异常检测

Python将YOLO格式实例分割数据集转换为COCO格式实例分割数据集

YOLOv8 Ultralytics：使用Ultralytics框架训练RT-DETR实时目标检测模型

基于DETR的人脸伪装检测

YOLOv7训练自己的数据集（口罩检测）

YOLOv8训练自己的数据集（足球检测）

YOLOv5：TensorRT加速YOLOv5模型推理

YOLOv5：IoU、GIoU、DIoU、CIoU、EIoU

玩转Jetson Nano（五）：TensorRT加速YOLOv5目标检测

YOLOv5：添加SE、CBAM、CoordAtt、ECA注意力机制

YOLOv5：yolov5s.yaml配置文件解读、增加小目标检测层

Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集

YOLOv5：使用7.0版本训练自己的实例分割模型（车辆、行人、路标、车道线等实例分割）

使用Kaggle GPU资源免费体验Stable Diffusion开源项目

Stable Diffusion：在服务器上部署使用Stable Diffusion WebUI进行AI绘图（v2.0）

Stable Diffusion：使用自己的数据集微调训练LoRA模型（v2.0）

Ultralytics：解读MLPBlock模块

Ultralytics：解读MLPBlock模块

前言

相关介绍

Ultralytics 简介

前提条件

实验环境

MLPBlock（多层感知机块）

代码实现

功能

初始化参数

前向方法

使用示例

流程示意图

代码解读

注意事项

优缺点

优点

缺点

参考文献