从DFL到无NMS推理：一文拆解YOLO26背后的工程取舍与数学原理

内卷时代的"逆行者"

近年来，目标检测模型的发展似乎陷入了一种"堆料"的趋势。为了在公开数据集上刷取更高的mAP，模型架构变得愈发复杂，例如 YOLOv12 引入了注意力机制，YOLOv13 引入了超图结构。下图是YOLO各代的优化：

模型 (年份)	核心架构创新与贡献	任务	框架
YOLOv1 (2015)	首个统一的单阶段目标检测器（将边界框与类别概率集成在单一网络中）。	目标检测、分类	Darknet
YOLOv2 (2016)	引入多尺度训练；通过 Anchor Box 维度聚类优化先验框（YOLO9000 支持联合检测/分类）。	目标检测、分类	Darknet
YOLOv3 (2018)	更深的 Darknet-53主干网络并引入残差连接；添加 SPP 模块和多尺度特征融合以提升小目标检测性能。	目标检测、多尺度检测	Darknet
YOLOv4 (2020)	采用 Mish 激活函数；引入 CSPDarknet-53 主干网络（跨阶段局部网络）以增强特征重用。	目标检测、目标跟踪	Darknet
YOLOv5 (2020)	Ultralytics 推出的 PyTorch 实现版本；提供无锚点（Anchor-free）检测头选项；使用 SiLU (Swish) 激活函数和 PANet 颈部网络进行特征聚合。	目标检测、实例分割（有限）	PyTorch (Ultralytics)
YOLOv6 (2022)	采用嵌入自注意力的 EfficientRep 主干网络；引入无锚点检测模式以提升效率。	目标检测、实例分割	PyTorch
YOLOv7 (2022)	扩展的 ELAN (E-ELAN) 主干网络及模型重参数化；集成了基于 Transformer 的模块以支持更广泛的任务（如跟踪）。	目标检测、目标跟踪、实例分割	PyTorch
YOLOv8 (2023)	Ultralytics 次世代模型；采用全新的 C2f 主干网络和解耦头；融入生成式技术（基于 GAN 的增强）及完全无锚点设计。	目标检测、实例分割、全景分割、关键点检测	PyTorch (Ultralytics)
YOLOv9 (2024)	引入可编程梯度信息 (PGI) 以进行选择性学习；提出 G-ELAN（增强型 ELAN 架构）以改进特征提取。	目标检测、实例分割	PyTorch
YOLOv10 (2024)	通过一致的双分配训练策略实现了端到端无 NMS（非极大值抑制）检测（移除后处理步骤）。	目标检测	PyTorch
YOLOv11 (2024)	在整个主干/颈部网络中添加了 C3k2 CSP 瓶颈结构（更小内核的 CSP 块）以提升效率；保留了 SPPF 并引入 C2PSA（带有空间注意力的 CSP）模块以聚焦重要区域。	目标检测、实例分割、姿态估计、旋转目标检测	PyTorch (Ultralytics)
YOLOv12 (2025)	以注意力为核心的架构：引入了高效区域注意力模块（低复杂度的全局自注意力）和残差 ELAN (R-ELAN) 块以优化特征聚合，在 YOLO 速度下达到 Transformer 级的精度。	目标检测	PyTorch
YOLOv13 (2025)	基于超图的自适应相关性增强 (HyperACE) 模块，捕捉全局高阶特征交互；采用全流水线聚合分发 (FullPAD) 方案增强网络特征流；利用深度可分离卷积降低复杂度。	目标检测	PyTorch
YOLOv26 (2025)	Ultralytics 边缘优化模型：通过原生端到端预测器消除 NMS；移除 DFL（分布FOCAL损失）以实现更简易、更快速的推理；引入MuSGD 优化器（SGD+Muon 混合）实现稳定快速收敛；显著提升小目标精度，CPU 推理速度提升高达43%。	目标检测、实例分割、姿态估计、旋转目标检测、分类	PyTorch (Ultralytics)

然而，在实际的工业落地中，复杂的架构往往意味着在边缘设备（如移动端、无人机、嵌入式平台）上面临严重的推理延迟和模型导出瓶颈。在这一背景下，2025 年 9 月发布的 YOLO26 选择了一条不同的演进路线：回归部署导向的实用主义 。来看效率对比：

本文将拆解 YOLO26 的四个核心架构变动，探讨其如何在砍掉复杂模块的同时，利用训练策略和新型优化器维持高精度。

一、移除 DFL（分布焦点损失）：简化边界框回归

在 YOLOv8 等前代模型中，DFL（Distribution Focal Loss）被广泛使用。

1. 为什么要用 DFL，又为什么要移除它？

在目标检测中，AI 需要画一个"边界框"（Bounding Box）来框住物体。以往的 YOLO 模型（如 YOLOv8）为了追求极高的框选精度，引入了 DFL，将其转化为一个离散的概率分布预测。你可以把它想象成"猜身高"：传统的做法是直接猜"这个人 175 厘米"；而 DFL 的做法是输出一个概率分布："这个人有 10% 的可能 174 厘米，80% 的可能 175 厘米，10% 的可能 176 厘米" 。虽然 DFL 的"概率猜测法"很准，但它需要进行大量的复杂数学运算（计算概率分布）。在推理时，需要通过计算期望（积分或加权求和）来还原坐标。

DFL假设真实的坐标 yyy 落在两个相邻的离散网格点 yiy_iyi 和 yi+1y_{i+1}yi+1 之间。模型会输出这两个点的概率 SiS_iSi 和 Si+1S_{i+1}Si+1，DFL 的核心公式通常计算这两个相邻点的交叉熵：

DFL(Si,Si+1)=−((yi+1−y)log⁡(Si)+(y−yi)log⁡(Si+1))\text{DFL}(S_i, S_{i+1}) = -((y_{i+1} - y)\log(S_i) + (y - y_i)\log(S_{i+1}))DFL(Si,Si+1)=−((yi+1−y)log(Si)+(y−yi)log(Si+1))

在推理时，模型需要通过积分（离散情况下的加权求和，即 Softmax 配合期望计算）来还原最终坐标：

y^=∑jP(yj)⋅yj\hat{y} = \sum_{j} P(y_j) \cdot y_jy^=∑jP(yj)⋅yj

这种概率分布计算引入了不可忽视的算力开销，并且在将其导出为 TensorRT、CoreML 或 TFLite 等端侧格式时，常常遇到算子不支持或执行效率低下的问题。YOLO26 为了追求极致的部署友好性，直接移除了 DFL 模块。回归头恢复为最直接的线性映射，仅输出确切的坐标。这极大简化了计算图，使得模型在 INT8 或 FP16 量化下也能保持稳定的精度表现。

二、端到端无 NMS 推理：二分图匹配的工程实践

目标检测流水线中，NMS（非极大值抑制）长期以来是一个难以优化的后处理瓶颈。

1. 传统"一对多"分配的痛点 在传统的训练机制中，只要多个预测框与真实目标（Ground Truth, GT）的交并比（IoU）达到一定阈值，它们都会被视为"正样本"。这种"一对多"的分配导致模型在推理时会针对同一个物体输出大量重叠的候选框。因此，必须依赖 NMS 步骤，通过人工设定的 IoU 阈值来剔除冗余框。这不仅增加了 CPU 的串行计算延迟，还使得模型在密集场景下容易发生误删。

2. YOLO26 的"一对一"二分图匹配 YOLO26 重构了预测头，实现了原生的端到端无 NMS 推理。其核心在于训练阶段采用了基于**匈牙利算法（Hungarian Algorithm）**的一对一匹配策略，这种古老的算法曾在基于Transformer的目标检测器DETR中被使用。

系统会计算所有预测框与所有 GT 之间的"匹配代价矩阵"（Cost Matrix），该代价通常由三部分组成：

Ci,j=λclsLcls+λiouLiou+λL1LL1C_{i,j} = \lambda_{cls} \mathcal{L}{cls} + \lambda{iou} \mathcal{L}{iou} + \lambda{L1} \mathcal{L}_{L1}Ci,j=λclsLcls+λiouLiou+λL1LL1

Lcls(pi,cj)\mathcal{L}_{cls}(p_i, c_j)Lcls(pi,cj)：分类代价 。pip_ipi 是预测为目标类别 cjc_jcj 的概率。通常使用 Focal Loss。如果预测类别完全不对，这项代价会极高。
Liou(bi,b^j)\mathcal{L}_{iou}(b_i, \hat{b}_j)Liou(bi,b^j)：IoU 代价 。通常使用 GIoU 或 CIoU。预测框 bib_ibi 和真实框 b^j\hat{b}_jb^j 重叠越少，代价越高。
∥bi−b^j∥1\| b_i - \hat{b}_j \|_1∥bi−b^j∥1：L1 距离代价。预测框与真实框中心点坐标的绝对距离。
λ\lambdaλ：各项的权重系数。

计算完所有 iii 和 jjj 的组合后，我们就得到了一个 N×MN \times MN×M 的代价矩阵。

匈牙利算法会在全局范围内，为每一个 GT 寻找唯一一个综合代价最低的预测框作为正样本，其余预测框全部强制作为负样本（背景）。这迫使模型在训练阶段就内化了"抑制冗余"的能力。反映在性能上，这一改动使得 YOLO26 的 CPU 推理时间相比前代缩短了最高达 43% 。

对于不熟悉匈牙利算法的同学，这里我举一个例子，方便直观感受。下面用一个"公司给 3 个候选人分配 3 个岗位"的实战例子，手把手推演一遍匈牙利算法。假设系统输出了3个预测框（候选人），画面里有3个真实目标（岗位）。我们计算出了它们之间的"不匹配代价"（Cost）。数值越低，说明匹配度越高。始代价矩阵如下（比如候选人 1 去岗位 2 的代价是 4）：

从DFL到无NMS推理：一文拆解YOLO26背后的工程取舍与数学原理

内卷时代的"逆行者"

一、 移除 DFL（分布焦点损失）：简化边界框回归

二、端到端无 NMS 推理：二分图匹配的工程实践

一、移除 DFL（分布焦点损失）：简化边界框回归