Ultralytics:解读MLPBlock模块

前言
- 由于本人水平有限,难免出现错漏,敬请批评改正。
- 更多精彩内容,可点击进入Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏、人工智能混合编程实践专栏或我的个人主页查看
- YOLOs-CPP:一个免费开源的YOLO全系列C++推理库(以YOLO26为例)
- PaddleOCR:Win10上安装使用PPOCRLabel标注工具
- 目标检测:使用自己的数据集微调DEIMv2进行物体检测
- 图像分割:PyTorch从零开始实现SegFormer语义分割
- 图像超分:使用自己的数据集微调Real-ESRGAN-x4plus进行超分重建
- 图像生成:PyTorch从零开始实现一个简单的扩散模型
- Stable Diffusion:使用自己的数据集微调 Stable Diffusion 3.5 LoRA 文生图模型
- 图像超分:使用自己的数据集微调Real-ESRGAN-x2plus进行超分重建
- Anomalib:使用Anomalib 2.1.0训练自己的数据集进行异常检测
- Anomalib:在Linux服务器上安装使用Anomalib 2.1.0
- 人工智能混合编程实践:C++调用封装好的DLL进行异常检测推理
- 人工智能混合编程实践:C++调用封装好的DLL进行FP16图像超分重建(v3.0)
- 隔离系统Python:源码编译3.11.8到自定义目录(含PGO性能优化)
- 在线机的Python环境迁移到离线机上
- Nuitka 将 Python 脚本封装为 .pyd 或 .so 文件
- Ultralytics:使用 YOLO11 进行速度估计
- Ultralytics:使用 YOLO11 进行物体追踪
- Ultralytics:使用 YOLO11 进行物体计数
- Ultralytics:使用 YOLO11 进行目标打码
- 人工智能混合编程实践:C++调用Python ONNX进行YOLOv8推理
- 人工智能混合编程实践:C++调用封装好的DLL进行YOLOv8实例分割
- 人工智能混合编程实践:C++调用Python ONNX进行图像超分重建
- 人工智能混合编程实践:C++调用Python AgentOCR进行文本识别
- 通过计算实例简单地理解PatchCore异常检测
- Python将YOLO格式实例分割数据集转换为COCO格式实例分割数据集
- YOLOv8 Ultralytics:使用Ultralytics框架训练RT-DETR实时目标检测模型
- 基于DETR的人脸伪装检测
- YOLOv7训练自己的数据集(口罩检测)
- YOLOv8训练自己的数据集(足球检测)
- YOLOv5:TensorRT加速YOLOv5模型推理
- YOLOv5:IoU、GIoU、DIoU、CIoU、EIoU
- 玩转Jetson Nano(五):TensorRT加速YOLOv5目标检测
- YOLOv5:添加SE、CBAM、CoordAtt、ECA注意力机制
- YOLOv5:yolov5s.yaml配置文件解读、增加小目标检测层
- Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集
- YOLOv5:使用7.0版本训练自己的实例分割模型(车辆、行人、路标、车道线等实例分割)
- 使用Kaggle GPU资源免费体验Stable Diffusion开源项目
- Stable Diffusion:在服务器上部署使用Stable Diffusion WebUI进行AI绘图(v2.0)
- Stable Diffusion:使用自己的数据集微调训练LoRA模型(v2.0)
相关介绍
Ultralytics 简介
Ultralytics 基于多年的计算机视觉和人工智能基础研究,创建了最先进的 (SOTA) YOLO 模型。我们的模型不断更新性能和灵活性,快速、准确且易于使用。他们擅长对象检测、跟踪、实例分割、语义分割、图像分类和姿势估计任务。
前提条件
- 熟悉Python、Pytorch
实验环境
bash
Package Version
------------------------ ------------
Python 3.11.8
absl-py 2.4.0
accelerate 1.13.0
annotated-doc 0.0.4
anyio 4.13.0
calflops 0.3.2
certifi 2026.4.22
charset-normalizer 3.4.7
click 8.3.3
colorama 0.4.6
contourpy 1.3.3
cycler 0.12.1
filelock 3.29.0
flatbuffers 25.12.19
fonttools 4.62.1
fsspec 2026.4.0
grpcio 1.80.0
h11 0.16.0
hf-xet 1.5.0
httpcore 1.0.9
httpx 0.28.1
huggingface_hub 1.14.0
idna 3.15
Jinja2 3.1.6
kiwisolver 1.5.0
Markdown 3.10.2
markdown-it-py 4.2.0
MarkupSafe 3.0.3
matplotlib 3.10.9
mdurl 0.1.2
ml_dtypes 0.5.0
mpmath 1.3.0
networkx 3.6.1
numpy 1.26.4
nvidia-cublas-cu12 12.8.3.14
nvidia-cuda-cupti-cu12 12.8.57
nvidia-cuda-nvrtc-cu12 12.8.61
nvidia-cuda-runtime-cu12 12.8.57
nvidia-cudnn-cu12 9.7.1.26
nvidia-cufft-cu12 11.3.3.41
nvidia-cufile-cu12 1.13.0.11
nvidia-curand-cu12 10.3.9.55
nvidia-cusolver-cu12 11.7.2.55
nvidia-cusparse-cu12 12.5.7.53
nvidia-cusparselt-cu12 0.6.3
nvidia-nccl-cu12 2.26.2
nvidia-nvjitlink-cu12 12.8.61
nvidia-nvtx-cu12 12.8.55
onnx 1.19.0
onnxruntime-gpu 1.26.0
onnxslim 0.1.94
opencv-python 4.6.0.66
packaging 26.2
pillow 12.2.0
pip 24.0
polars 1.40.1
polars-runtime-32 1.40.1
protobuf 7.34.1
psutil 7.2.2
pycocotools 2.0.11
Pygments 2.20.0
pyparsing 3.3.2
python-dateutil 2.9.0.post0
PyYAML 6.0.3
regex 2026.5.9
requests 2.34.1
rich 15.0.0
safetensors 0.7.0
scipy 1.16.0
setuptools 65.5.0
shellingham 1.5.4
six 1.17.0
sympy 1.14.0
tabulate 0.10.0
tensorboard 2.20.0
tensorboard-data-server 0.7.2
tokenizers 0.22.2
torch 2.7.1+cu128
torchaudio 2.7.1+cu128
torchvision 0.22.1+cu128
tqdm 4.67.3
transformers 5.8.1
triton 3.3.1
typer 0.25.1
typing_extensions 4.15.0
ultralytics 8.4.58
ultralytics-thop 2.0.19
urllib3 2.7.0
Werkzeug 3.1.8
MLPBlock(多层感知机块)
MLPBlock 是一个标准的 两层前馈网络 (Feed-Forward Network),广泛应用于 Transformer 架构中。它先将输入从 embedding_dim 映射到更大的隐藏维度 mlp_dim,通过激活函数后,再映射回 embedding_dim。这种 膨胀-收缩 结构增加了模型的非线性表达能力,是 Transformer 编码器和解码器层的核心组件之一。
代码实现
python
import cv2
import math
import torch
import numpy as np
import matplotlib.pyplot as plt
from torch import nn
class MLPBlock(nn.Module):
"""A single block of a multi-layer perceptron."""
def __init__(self, embedding_dim: int, mlp_dim: int, act=nn.GELU):
"""Initialize the MLPBlock with specified embedding dimension, MLP dimension, and activation function.
Args:
embedding_dim (int): Input and output dimension.
mlp_dim (int): Hidden dimension.
act (type): Activation function class.
"""
super().__init__()
self.lin1 = nn.Linear(embedding_dim, mlp_dim)
self.lin2 = nn.Linear(mlp_dim, embedding_dim)
self.act = act()
def forward(self, x: torch.Tensor) -> torch.Tensor:
"""Forward pass for the MLPBlock.
Args:
x (torch.Tensor): Input tensor.
Returns:
(torch.Tensor): Output tensor after MLP block.
"""
return self.lin2(self.act(self.lin1(x)))
功能
- 特征变换 :对输入张量进行
embedding_dim → mlp_dim → embedding_dim的线性变换,中间插入激活函数(默认为 GELU),增强非线性。 - 参数高效:相比单个线性层,膨胀-收缩结构能学习更丰富的特征表示,是 Transformer 中不可或缺的非线性模块。
- 即插即用:可嵌入到各种网络架构中,例如 Transformer 的 FFN、MLP-Mixer 等。
初始化参数
| 参数 | 类型 | 说明 |
|---|---|---|
embedding_dim |
int | 输入和输出特征维度 |
mlp_dim |
int | 隐藏层维度(通常设置为 embedding_dim 的 4 倍) |
act |
type(类) | 激活函数类(默认 nn.GELU),需是无参数实例化的类 |
注意:
act传入的是类(如nn.GELU),在__init__中实例化。
前向方法
forward(x):输入x(形状任意,但最后一维必须为embedding_dim),输出形状相同。
计算流程:
lin1:embedding_dim → mlp_dim- 激活函数(如 GELU)
lin2:mlp_dim → embedding_dim
使用示例

python
if __name__ == '__main__':
# 1. 设置参数
embedding_dim, mlp_dim = 128, 512
batch_size, seq_len = 2, 10
# 2. 创建 MLPBlock
mlp = MLPBlock(embedding_dim, mlp_dim, act=nn.GELU)
# 3. 随机输入(无需梯度)
x = torch.randn(batch_size, seq_len, embedding_dim)
with torch.no_grad():
out = mlp(x)
print("输入形状:", x.shape) # [2, 10, 128]
print("输出形状:", out.shape) # [2, 10, 128]
# 4. 使用真实图像演示(展平为序列)
img_path = "cat_640x640.png" # 请替换为实际路径
img_bgr = cv2.imread(img_path)
if img_bgr is not None:
# 缩放到 32x32 并转为灰度
img_gray = cv2.cvtColor(cv2.resize(img_bgr, (32, 32)), cv2.COLOR_BGR2GRAY)
# 转为张量 [1, 1, 32, 32]
img_tensor = torch.from_numpy(img_gray).float().unsqueeze(0).unsqueeze(0)
# 展平为序列 [1, 1024, 1]
seq = img_tensor.flatten(2).permute(0, 2, 1) # [1, 1024, 1]
# 由于 embedding_dim=128,需先通过线性层映射
# 为了演示,我们创建一个不可训练(或使用 eval 模式)的线性层
proj = nn.Linear(1, embedding_dim)
# 可选:直接使用随机初始化的投影,但不更新梯度
with torch.no_grad():
seq_proj = proj(seq) # [1, 1024, 128]
out_seq = mlp(seq_proj) # [1, 1024, 128]
# 提取第一个特征通道并重塑为 32x32
out_img = out_seq[0, :, 0].reshape(32, 32).cpu().detach().numpy()
inp_img = seq_proj[0, :, 0].reshape(32, 32).cpu().detach().numpy()
# 归一化显示
def norm(arr):
return (arr - arr.min()) / (arr.max() - arr.min() + 1e-8)
plt.figure(figsize=(12, 5), constrained_layout=True)
plt.subplot(1, 3, 1)
plt.imshow(img_gray, cmap='gray')
plt.title("Original Gray")
plt.axis("off")
plt.subplot(1, 3, 2)
plt.imshow(norm(inp_img), cmap='gray')
plt.title("Projected (Ch0)")
plt.axis("off")
plt.subplot(1, 3, 3)
plt.imshow(norm(out_img), cmap='gray')
plt.title("After MLP (Ch0)")
plt.axis("off")
plt.savefig("mlpblock_demo.png", dpi=150)
print("可视化已保存为 mlpblock_demo.png")

输出示例:
输入形状: torch.Size([2, 10, 128])
输出形状: torch.Size([2, 10, 128])
可视化已保存为 mlpblock_demo.png
流程示意图

代码解读
__init__:定义两个线性层lin1和lin2,以及激活函数act。注意act参数传入的是类(如nn.GELU),在内部实例化。forward:顺序执行lin1→ 激活 →lin2。输入输出维度不变,且支持任意形状(只要最后一维为embedding_dim)。
注意事项
- 隐藏维度通常较大 :在 Transformer 中,
mlp_dim通常设置为embedding_dim的 4 倍(如 512 → 2048),以增强表达能力。 - 无偏置或 Dropout :本实现中线性层默认带偏置(
bias=True),但未包含 Dropout。若需要正则化,可在lin1和lin2后添加 Dropout 层。 - 激活函数选择:GELU 是 Transformer 中最常用的激活函数,也可替换为 ReLU、SiLU 等。
- 与残差连接配合 :
MLPBlock本身不包含残差,通常在外部与输入相加(如 Transformer 中的x + MLP(LN(x)))。 - 输入维度要求 :输入张量的最后一维必须等于
embedding_dim,否则会报错。
优缺点
优点
- 非线性增强:膨胀-收缩结构引入大量参数和非线性,提升了模型容量。
- 简单通用:实现简洁,可轻松嵌入各种架构。
- 可调节容量 :通过调整
mlp_dim控制模型复杂度。 - 高效实现:线性层在 GPU 上计算效率高。
缺点
- 参数较多 :当
mlp_dim较大时(如 4×embedding_dim),参数量占 Transformer 层的 2/3 以上。 - 缺少正则化:无 Dropout,容易过拟合,需外部添加。
- 无残差:若外部不添加残差,梯度可能消失(但通常有残差结构)。
- 固定激活函数:激活函数在初始化时固定,无法根据输入动态调整。
在 YOLO 或 RT-DETR 等模型中,MLPBlock 通常作为 TransformerLayer 或 AIFI 内部的前馈网络。使用时可根据任务调整 mlp_dim,并在训练时加入适当的 Dropout 和 LayerNorm。
参考文献
1 https://docs.ultralytics.com/
2 https://github.com/ultralytics/ultralytics.git
- 由于本人水平有限,难免出现错漏,敬请批评改正。
- 更多精彩内容,可点击进入Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏、人工智能混合编程实践专栏或我的个人主页查看
- YOLOs-CPP:一个免费开源的YOLO全系列C++推理库(以YOLO26为例)
- PaddleOCR:Win10上安装使用PPOCRLabel标注工具
- 目标检测:使用自己的数据集微调DEIMv2进行物体检测
- 图像分割:PyTorch从零开始实现SegFormer语义分割
- 图像超分:使用自己的数据集微调Real-ESRGAN-x4plus进行超分重建
- 图像生成:PyTorch从零开始实现一个简单的扩散模型
- Stable Diffusion:使用自己的数据集微调 Stable Diffusion 3.5 LoRA 文生图模型
- 图像超分:使用自己的数据集微调Real-ESRGAN-x2plus进行超分重建
- Anomalib:使用Anomalib 2.1.0训练自己的数据集进行异常检测
- Anomalib:在Linux服务器上安装使用Anomalib 2.1.0
- 人工智能混合编程实践:C++调用封装好的DLL进行异常检测推理
- 人工智能混合编程实践:C++调用封装好的DLL进行FP16图像超分重建(v3.0)
- 隔离系统Python:源码编译3.11.8到自定义目录(含PGO性能优化)
- 在线机的Python环境迁移到离线机上
- Nuitka 将 Python 脚本封装为 .pyd 或 .so 文件
- Ultralytics:使用 YOLO11 进行速度估计
- Ultralytics:使用 YOLO11 进行物体追踪
- Ultralytics:使用 YOLO11 进行物体计数
- Ultralytics:使用 YOLO11 进行目标打码
- 人工智能混合编程实践:C++调用Python ONNX进行YOLOv8推理
- 人工智能混合编程实践:C++调用封装好的DLL进行YOLOv8实例分割
- 人工智能混合编程实践:C++调用Python ONNX进行图像超分重建
- 人工智能混合编程实践:C++调用Python AgentOCR进行文本识别
- 通过计算实例简单地理解PatchCore异常检测
- Python将YOLO格式实例分割数据集转换为COCO格式实例分割数据集
- YOLOv8 Ultralytics:使用Ultralytics框架训练RT-DETR实时目标检测模型
- 基于DETR的人脸伪装检测
- YOLOv7训练自己的数据集(口罩检测)
- YOLOv8训练自己的数据集(足球检测)
- YOLOv5:TensorRT加速YOLOv5模型推理
- YOLOv5:IoU、GIoU、DIoU、CIoU、EIoU
- 玩转Jetson Nano(五):TensorRT加速YOLOv5目标检测
- YOLOv5:添加SE、CBAM、CoordAtt、ECA注意力机制
- YOLOv5:yolov5s.yaml配置文件解读、增加小目标检测层
- Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集
- YOLOv5:使用7.0版本训练自己的实例分割模型(车辆、行人、路标、车道线等实例分割)
- 使用Kaggle GPU资源免费体验Stable Diffusion开源项目
- Stable Diffusion:在服务器上部署使用Stable Diffusion WebUI进行AI绘图(v2.0)
- Stable Diffusion:使用自己的数据集微调训练LoRA模型(v2.0)