YOLO-Master：基于混合专家模型加速与专用变换器的增强实时检测

💡 初心 (Introduction)

"探索 YOLO 中动态智能的前沿。"

这项工作代表了我们对实时目标检测 (RTOD) 演进的热情探索。据我们所知，YOLO-Master 是首个在通用数据集上将混合专家 (MoE) 架构与 YOLO 深度融合的工作。

大多数现有的 YOLO 模型依赖于静态的密集计算------即对简单的天空背景和复杂的拥挤路口分配相同的计算预算。我们认为检测模型应该更加"自适应"，就像人类视觉系统一样。虽然这次初步探索可能并不完美，但它展示了 高效稀疏 MoE (ES-MoE) 在平衡高精度与超低延迟方面的巨大潜力。我们将致力于持续迭代和优化，以进一步完善这一方法。

展望未来，我们从 LLM 和 VLM 的变革性进步中汲取灵感。我们将致力于完善这一方法，并将这些见解扩展到基础视觉任务中，最终目标是解决更具雄心的前沿问题，如开放词汇检测和开放集分割。

博主简介

AI小怪兽 | 计算机视觉布道者 | 视觉检测领域创新者

深耕计算机视觉与深度学习领域，专注于视觉检测前沿技术的探索与突破。长期致力于YOLO系列算法的结构性创新、性能极限优化与工业级落地实践，旨在打通从学术研究到产业应用的最后一公里。

🚀 核心专长与技术创新

YOLO算法结构性创新 ：于CSDN平台原创发布《YOLOv13魔术师》、《YOLOv12魔术师》等全系列深度专栏。系统性提出并开源了多项原创自研模块 ，在模型轻量化设计、多维度注意力机制融合、特征金字塔重构等关键方向完成了一系列突破性实践，为行业提供了具备高参考价值的技术路径与完整解决方案。
技术生态建设与知识传播 ：独立运营 "计算机视觉大作战" 公众号（粉丝1.6万），成功构建高质量的技术交流社群。致力于将复杂算法转化为通俗易懂的解读与可复现的工程代码，显著降低了计算机视觉的技术入门门槛。

🏆 行业影响力与商业实践

荣获腾讯云年度影响力作者 与创作之星奖项，内容质量与专业性获行业权威平台认证。
全网累计拥有 7万+ 垂直领域技术受众，专栏文章总阅读量突破百万，在目标检测领域形成了广泛的学术与工业影响力。
具备丰富的企业级项目交付经验，曾为工业视觉检测、智慧城市安防等多个关键领域提供定制化的算法模型与解决方案，驱动业务智能化升级。

💡 未来方向与使命

秉持 "让每一行代码都有温度" 的技术理念，未来将持续聚焦于实时检测、语义分割及工业缺陷检测的商业化闭环等核心方向。愿与业界同仁协同创新，共同推动技术边界，以坚实的技术能力赋能实体经济与行业变革。

原创自研系列， 25年计算机视觉顶会创新点

应用系列篇：

23、24年最火系列，加入24年改进点内涵100+优化改进篇，涨点小能手，助力科研，好评率极高

原理介绍

论文： https://arxiv.org/pdf/2512.23273

代码： GitHub - isLinXu/YOLO-Master: 🚀🚀🚀Official code for the paper "YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection."🔥🔥🔥

**摘要：**现有的实时目标检测 (RTOD) 方法通常采用类 YOLO 架构，因为它们在精度和速度之间取得了良好的平衡。然而，这些模型依赖于静态密集计算，对所有输入应用统一的处理，导致表示能力和计算资源的分配不当，例如在简单场景上过度分配，而在复杂场景上服务不足。这种不匹配导致了计算冗余和次优的检测性能。

为了克服这一限制，我们提出了 YOLO-Master ，这是一种新颖的类 YOLO 框架，为 RTOD 引入了实例条件自适应计算。这是通过**高效稀疏混合专家 (ES-MoE)**块实现的，该块根据场景复杂度动态地为每个输入分配计算资源。其核心是一个轻量级的动态路由网络，通过多样性增强目标指导专家在训练期间的专业化，鼓励专家之间形成互补的专业知识。此外，路由网络自适应地学习仅激活最相关的专家，从而在提高检测性能的同时，最大限度地减少推理过程中的计算开销。

在五个大规模基准测试上的综合实验证明了 YOLO-Master 的优越性。在 MS COCO 上，我们的模型实现了 42.4% 的 AP 和 1.62ms 的延迟，比 YOLOv13-N 高出 +0.8% mAP，推理速度快 17.8%。值得注意的是，在具有挑战性的密集场景中收益最为明显，同时模型在典型输入上保持了效率并维持了实时推理速度。代码: isLinXu/YOLO-Master

1. 引言

实时目标检测是计算机视觉中的一项关键任务，在自动驾驶、视频监控和机器人系统等领域有着广泛的应用 $28, 31, 34$ 。YOLO系列凭借其一阶段检测框架，在该领域确立了主导范式，在检测精度和推理速度之间实现了有效的平衡 $15, 16, 18, 36, 39$ 。近期类YOLO架构的进展主要集中在两个方向：通过改进骨干网络设计来增强特征表示能力 $36$ ；以及通过精炼的颈部架构来优化多尺度特征融合 $25$ 。例如，YOLOv5引入了C2f模块以提升多尺度特征学习能力，而YOLOv11则结合了选择性注意力机制以增强全局表示能力。

然而，这些改进仍受限于一个基本缺陷：所有现有的YOLO架构都采用静态的密集计算模式，即无论输入复杂度如何，所有输入都通过相同的网络路径和统一的计算资源进行处理。这种"一刀切"的模式导致了显著的效率低下。具体而言，包含稀疏大目标的简单场景，与充满小目标的复杂场景消耗着相同的计算资源，这既造成了资源浪费，也导致了特征纯净度欠佳 $7, 27$ 。

此外，YOLO系列长期以来在平衡精度与速度的权衡上面临着严峻挑战。从YOLOv1到最新版本，每一代都试图通过架构创新和训练策略来推进这种权衡的帕累托边界。但这些改进本质上是静态且预设的。计算预算和网络容量在设计阶段就已固定，缺乏根据输入特征动态分配资源的自适应机制。在处理多样化的现实场景时，这一局限性尤为明显：一个为复杂城市场景优化的检测器对于简单的高速公路环境来说可能参数过多，而为效率优化的检测器在面对挑战性场景时可能能力不足。现代大语言模型的研究表明，稀疏激活模式可以显著提高效率和适应性，其中不同的输入会选择性地激活模型参数的不同子集 $7, 35$ 。这一洞见促使我们探索，类似的动态计算范式是否能够从根本上重塑实时目标检测的精度-效率格局。

为了应对这些局限，我们提出了YOLO-Master ，这是一种通过在YOLO框架内集成混合专家模型（MoE）范式，开创性地将条件计算引入实时目标检测的新颖架构。我们的方法使得检测器能够根据输入内容动态激活一部分专家网络，从而打破了传统的模型容量与计算成本之间的静态权衡。基于MoE的设计包含三个核心机制：(1) 动态路由 ：训练时使用软性Top-K激活以保证梯度流，推理时使用硬性Top-K稀疏以实现效率；(2) 高效专家分组 ：采用具有不同感受野（3×3、5×5、7×7卷积核）的深度可分离卷积来捕获不同的多尺度模式；(3) 负载均衡监督：确保训练期间专家利用率均衡，同时在部署时保持真正的稀疏性。在MS COCO数据集上的评估显示，YOLO-Master取得了卓越的性能，以1.8%的mAP优势超越YOLOv12 $36$ ，以0.8%的mAP优势超越YOLOv13 $18$ ，同时保持具有竞争力的推理速度。这验证了自适应容量分配策略成功地为实时目标检测建立了新的技术前沿，该策略为挑战性场景扩展资源，同时为典型输入保持效率。

我们将贡献总结如下：

我们首次提出了用于实时目标检测的基于MoE的条件计算框架，通过实现适应输入复杂度的动态专家激活，从根本上打破了静态的精度-效率权衡。
我们设计了一个具有多尺度专家和动态路由网络的高效稀疏MoE模块。我们在训练时使用软性Top-K专家以保证梯度流，在推理时使用硬性Top-K专家以实现真正的稀疏性，从而在保持训练稳定性的同时实现部署效率。
我们引入了一种专为目标检测定制的负载均衡监督机制，该机制防止了专家崩溃，同时保持了专家利用的均匀性，这对于在不牺牲推理稀疏性的前提下实现稳定的MoE训练至关重要。
在五个多样化基准（MS COCO、PASCAL VOC、VisDrone、KITTI、SKU110K）上进行的大量实验证明了其最先进的性能。在不同目标密度和视觉领域上取得的一致性改进，验证了自适应计算相较于静态架构的泛化能力。

2. 相关工作

2.1. 实时目标检测器

YOLO系列已成为实时目标检测的主导范式，通过持续的架构改进不断发展演进 $15--18, 30, 32, 34, 36, 38$ 。代表性的改进包括多尺度特征金字塔 $30$ 、高效层聚合 $15$ 、无需非极大值抑制的训练 $38$ 、选择性注意力机制 $16$ 以及自适应视觉感知 $18$ 。这些方法主要专注于骨干网络架构优化、特征融合策略和训练范式增强。然而，它们都采用静态的密集计算模式，即无论输入复杂度如何，所有输入都通过相同的网络路径和统一的计算资源进行处理。这一根本性局限阻碍了基于输入特征的自适应容量分配。

除YOLO之外，其他实时检测器（如RTDETR $43$ ）采用了基于Transformer的架构，并具有类似的静态计算模式。尽管这些方法通过架构创新在精度-效率权衡上取得了竞争力，但它们缺乏动态资源分配的机制。我们的YOLO-Master通过引入基于混合专家模型框架的条件计算来弥补这一不足，实现了自适应专家激活，从而从根本上打破了现有架构中固有的静态权衡。

2.2. 混合专家模型

混合专家模型（MoE）最初被提出，旨在通过条件计算来提高模型容量，其中门控网络将输入路由到专门的专家子网络 $14$ 。这种稀疏激活策略在将语言模型扩展到万亿参数规模的同时保持可控的计算成本方面取得了显著成功 $7, 19$ 。最近的研究已将MoE扩展到计算机视觉领域，主要关注于使用视觉Transformer进行图像分类任务 $4, 29, 33$ 以及多任务学习 $2$ 。然而，将MoE应用于目标检测等密集预测任务在很大程度上仍未得到探索。与在全局图像表示上进行路由的分类任务不同，目标检测需要处理具有不同目标密度和尺度分布的多尺度空间特征。已有初步尝试将MoE集成到基于ViT的检测器中 $40$ ，但它们通常会带来巨大的计算开销，不适用于实时场景。

我们的YOLO-Master通过引入首个专为基于CNN的轻量级实时检测器量身定制的MoE框架来弥补这一不足。我们设计了一种在特征金字塔层级上运行的动态路由机制，能够基于空间特征进行自适应专家激活。训练-推理解耦的路由策略（训练时使用软性Top-K以保证梯度流，推理时使用硬性Top-K以实现真正的稀疏性）确保了优化稳定性和部署效率，使得条件计算在实时检测中得以实用。

2.3. 自适应特征处理

注意力机制已被广泛应用于目标检测中，通过聚焦于信息丰富的区域来动态重新校准特征 $10, 12, 13, 41, 42$ 。尽管有效，但这些机制对所有输入施加相同的计算，包括通道注意力（SE $13$ ）、空间注意力（CBAM $42$ ）和基于Transformer的自注意力 $1, 37$ 都通过静态的、与输入无关的架构运行。近期的高效注意力变体 $3, 26$ 降低了计算复杂度，但其本质上仍然是密集的，以统一的容量处理每个空间位置。

我们基于MoE的方法存在根本性不同：并非通过注意力分数自适应地加权特征，而是通过条件专家激活来实现自适应计算。这种范式的转变使得输入依赖的容量分配成为可能------简单区域激活较少的专家，而复杂区域则访问更大的模型容量------这从根本上打破了基于注意力的方法所固有的静态计算约束。

3. 方法论

3.1. YOLO-Master 概览

在本工作中，我们提出YOLO-Master，这是一个用于实时目标检测的新型类YOLO框架。YOLO-Master基于近期的YOLO架构构建，并引入了一个高效稀疏混合专家模型模块，以实现稀疏的、实例条件的自适应计算。如图2（左上）所示，YOLO-Master遵循标准的YOLO设计，包含骨干网络、颈部网络和检测头。我们的ES-MoE模块被插入到骨干网络和颈部网络中：在骨干网络中，它能跨不同目标尺度和场景复杂度动态增强特征提取；在颈部网络中，它支持多尺度自适应融合和信息精炼。

ES-MoE模块遵循图2（左下）所示的信息流。具体来说，ES-MoE包含三个关键组件：i) 一个生成实例相关路由信号的动态路由网络 ；ii) 一个选择最相关专家的Softmax门控机制 ；iii) 一个将激活专家输出融合为精炼表示的加权聚合单元 。核心的动态路由网络采用分阶段路由策略，训练时使用软路由以鼓励专家专业化，推理时使用硬Top-K激活以选择最相关的专家，如图2（右）所示。接下来我们将详细描述每个组件。

具体而言，给定一个输入特征图 X ∈ R^{C×H×W}，其中C、H和W分别表示通道数、高度和宽度。该模块首先使用动态路由网络提取路由特征。这些特征随后被送入Softmax门控机制以计算专家选择的权重分布。令E表示专家总数，w = {w1, w2, ..., wE} 表示分配给每个专家的门控权重。门控权重计算如下：

其中 gi(·) 表示第 i 个专家的门控函数。根据计算出的权重 w，选择权重最高的前K个专家，其中 K ≪ E 以确保稀疏激活。然后，通过加权聚合将所选专家的输出结合起来，生成增强后的特征图 Y $14, 35$ ：

其中 TK 表示选定的前K个专家的索引集合，Norm(·) 表示应用于稳定聚合特征的归一化操作 $20, 21$ 。这种设计能够基于输入特征的局部特征和复杂度动态分配计算资源。

ES-MoE的关键创新在于其分阶段路由策略，如图2（右侧面板）所示。在训练期间，软Top-K路由机制 通过为所有专家分配平滑、可微分的权重（同时突出表现最佳者）来确保梯度连续性。在推理期间，模块切换至硬Top-K策略，仅激活K个专家，以实现实际的计算稀疏性和加速效果 $7$ 。这种自适应机制有效解决了传统密集模型中固有的计算冗余问题，使得在不同部署阶段都能进行高效的专家选择。该路由策略的详细设计与分析将在第3.4节中介绍。

3.2. 动态路由网络

专家网络由E个独立的特征变换模块 Expert_i 组成，每个模块旨在对输入特征X执行不同的非线性变换。核心设计目标是实现高计算效率和多样化的感受野，使模型能够自适应地选择最合适的特征处理路径。

高效专家架构 。为了满足实时检测严格的计算限制，每个专家 Expert_i 采用深度可分离卷积作为其基本构建块，而不是标准卷积 $11$ 。DWconv通过解耦空间滤波（深度卷积）和通道信息集成（逐点卷积），显著减少了参数量和FLOPs：

这种设计确保即使专家数量E很大，整个专家网络的总参数量和计算成本也保持在可控范围内，这对于维持YOLO-Master的轻量级特性至关重要。

多样化感受野。为了使模型具备处理不同尺度和复杂度的局部特征的能力，每个专家的DWconv被设计为具有不同的卷积核大小 k_i。具体来说，我们配置专家组使其具有不同的奇数核大小 k_i ∈ {3, 5, 7, ...}，以覆盖一系列感受野，灵感来源于Inception网络中的多核方法。在路由机制的引导下，Expert_i 可以被动态激活，允许模型自适应地聚合不同空间范围内的上下文信息。这种多样化的架构增强了ES-MoE模块的表达能力，使其比使用单一固定核大小的卷积块能更有效地处理多尺度特征。

专家输出与聚合。每个专家 Expert_i 产生一个输出 Yi ∈ R^{C_out×H×W}，该输出保持与输入特征X相同的空间维度H×W，并具有预定义的输出通道数 C_out。所有专家输出 Y1, ..., YE 随后使用由动态路由机制计算的路由权重 Ω = $ω1, ..., ωE$ 进行聚合：

其中 Y_MoE ∈ R^{C_out×H×W} 是ES-MoE模块的最终聚合输出。

3.3. 门控网络设计

门控网络 G 在ES-MoE模块中扮演着关键角色，负责生成用于激活E个专家的原始逻辑值 Λ ∈ R^{E×1×1}。其设计遵循轻量级原则，以确保路由决策过程本身不会成为计算瓶颈 $33$ 。

信息聚合 。首先，为了进行全局信息聚合，路由权重应来源于全局上下文信息而非局部特征，以便为整个输入特征图 X ∈ R^{C×H×W} 提供统一的指导。因此，我们采用全局平均池化将输入特征图压缩成一个紧凑的全局描述符 P ∈ R^{C×1×1} $13$ : P = GAP(X). $13, 23$

逻辑值计算。接着，为了进行轻量级的逻辑值计算，聚合后的描述符P被输入到一个参数高效的门控网络G。该网络由两个1×1卷积层和一个非线性激活函数组成。我们引入一个通道缩减比 γ = 8 来定义中间通道维度 C_red = max(C/γ, 8)，从而限制门控网络的计算开销。计算流程定义如下：

其中 Conv_{out=C'}^{1×1} 表示输出通道为 C' 的 1×1 卷积。输出 Λ 代表了跨空间维度的E个专家的统一逻辑分数。

专家逻辑值。最后，生成专家逻辑值 Λ = $Λ1, Λ2, ..., ΛE$ 的计算复杂度仅取决于通道维度C和专家数量E，与输入特征图的空间维度H×W无关。这种设计确保了即使在处理架构骨干和颈部网络中的高分辨率特征图时也能高效运行。

3.4. 分阶段路由策略

路由范式的设计追求ES-MoE框架的基本目标：在训练期间确保全面的专家学习，同时在推理期间强制执行严格的稀疏激活以实现计算加速。这一双重目标通过分阶段动态路由机制实现 $7, 45$ 。

专家权重Ω的计算。门控网络G输出原始逻辑值 Λ ∈ R^{E×1×1}。首先，Λ通过Softmax函数归一化以获得初始权重：

其中 Ω' 表示每个被选专家的概率。

软Top-K策略（训练模式）。在训练期间保持梯度流至关重要。我们采用软Top-K策略来强制稀疏性，同时为非零权重保留梯度 $7$ 。首先，我们识别 Ω' 中前K个最大权重的索引集合 I_K。然后，基于 I_K 构建一个二进制硬掩码 M_K：

通过元素乘法将 Ω' 与 M_K 相乘，然后对非零项进行重新归一化，得到软Top-K权重 Ω_train：

其中 ϵ 是一个极小值，用于防止除以零。这种方法确保只有K个专家被激活，同时由于 Ω' 参与了计算，保持了权重相对于逻辑值Λ的连续梯度。

硬Top-K策略（推理模式）。在推理期间，我们追求真正的计算稀疏化。我们直接从 Λ 中选择前K个最大的逻辑值 Λ_K，对其应用Softmax归一化 Ω_K = Softmax(Λ_K)，并严格将剩余的 E-K 个专家的权重设为零 $35$ 。

硬Top-K策略确保了在稀疏前向传播期间，仅调用K个专家模块进行计算，从而在实际硬件上实现显著加速。

动态切换。模型的前向传播逻辑基于当前操作模式（self.training）:

通过这种动态切换，我们在训练有效性和推理速度之间实现了最佳平衡。

3.5. 损失函数设计

我们的优化目标是最小化总损失函数 L_Total，它包含两个关键部分：标准的YOLOv8检测损失 L_YOLO 和一个为MoE架构专门设计的负载均衡损失 L_LB。这种组合损失公式确保模型获得高检测精度的同时，有效解决了专家利用率不平衡的问题：

L_Total = L_YOLO + λ_LB · L_LB

其中 λ_LB > 0 是一个超参数，用于控制负载均衡项在总损失中的贡献权重。

检测损失 L_YOLO。检测损失 L_YOLO 遵循标准的YOLOv8公式，评估模型在目标分类和定位方面的性能 $17$ 。它包含三个核心组件：衡量预测与真实类别之间差异的分类损失 L_cls；通常使用CIoU或DIoU损失实现的定位损失 L_loc，用于评估预测边界框与真实边界框之间的重叠度和位置偏差 $44$ ；以及优化边界框分布表示的分布焦点损失 L_DFL $22$ :

负载均衡损失 L_LB。引入负载均衡损失是为了缓解MoE训练中普遍存在的专家崩溃问题，即路由网络倾向于将大多数输入token分配给一小部分"更强"或初始化更好的专家 $7$ 。L_LB 通过惩罚每个专家的平均使用频率 μ_i 与理想均匀分布 1/E 之间的偏差，来鼓励所有专家的均衡利用。首先，我们将专家i在当前批次和所有空间位置上的平均使用频率 μ_i 定义为：

其中 Ω_train 表示在训练阶段计算的软Top-K权重。负载均衡损失 L_LB 采用均方误差形式来衡量 μ_i 与目标均匀利用率 1/E 之间的差异：

通过最小化 L_LB，我们确保模型在训练期间充分利用所有E个专家，从而增强其整体泛化能力和鲁棒性。

4. 实验

4.1. 实验设置

数据集。我们在五个多样化基准上进行了评估：MS COCO 2017 $24$ （118k 训练图像，80 个类别）、PASCAL VOC 2007+2012 $6$ （16.5k 图像，20 个类别）、VisDrone-2019 $5$ （6.5k 图像，10 个类别）、KITTI $8$ （7.5k 图像，3 个类别）和 SKU-110K $9$ （8.2k 图像，1 个类别）。

实现。我们使用 YOLOv12-Nano $36$ （宽度缩放因子 0.5）作为基线，并集成了 MoE 模块。所有模型在 640×640 分辨率下使用 SGD 优化器和余弦学习率调度训练 600 轮。总批次大小为 256。数据增强包括 Mosaic (p=1.0)、Copy-Paste (p=0.1) 和 MixUp（Nano 变体禁用）。同时也应用了标准增强（随机仿射变换、HSV 颜色抖动）。所有训练和测试均在 4 台高性能计算节点上执行。

指标。我们报告所有基准的 mAP50:95 和 mAP50。效率指标包括参数数量（M，含K个激活专家）、延迟（毫秒）和在一专用推理加速器上测量的 FPS，遵循 YOLOv12 基线（FP16，批次大小=1）的标准硬件配置，强调实时部署的可行性。

4.2. 主要结果

结果表明，YOLO-Master-N 在所有五个基准上均实现了最先进的性能，同时保持了实时推理速度。在 mAP 指标上，YOLO-Master-N 优于近期的 YOLOv13-N，分别提升了 +0.8%（COCO）、+1.4%（VOC）、+2.1%（VisDrone）、+1.5%（KITTI）和 +0.7%（SKU-110K）。最大的增益出现在 VisDrone（+2.1%）和 KITTI（+1.5%），这验证了我们针对小目标检测和精确定位的设计。尽管精度有所提升，YOLO-Master-N 比 YOLOv13-N 快 18%，并且仅比最快的 YOLOv11-N 慢 8%，展示了最佳的效率-精度平衡。在 SKU-110K（平均每张图 147 个目标）上，我们的方法达到了 58.2% 的 mAP，证明了其在拥挤场景中的有效性。这些结果验证了我们基于 MoE 的架构，通过选择性特征处理，能够在多样化检测场景中实现更高的精度和实用的推理速度。

4.3. 消融研究

4.3.1. ES-MoE 模块的有效性

我们在表 5 中研究了 ES-MoE 模块的最佳放置策略。仅骨干网络集成 以 262 万参数取得了 62.1% mAP 的最佳性能，相比基线（60.8%）提升了 +1.3%。这验证了专家在早期特征提取阶段的专门化至关重要------骨干网络中的 ES-MoE 能够有效地学习尺度自适应和语义多样的表示，从而有利于下游检测。仅颈部网络集成 效果不佳，仅为 58.2% mAP（-2.6%），因为如果没有骨干网络提供的多样化输入特征，路由机制无法有效地实现专家专门化。普通的骨干网络产生同质化特征，限制了颈部网络发现互补专家模式的能力。令人惊讶的是，完全集成 （同时置于骨干和颈部网络）严重降低了性能至 54.9% mAP（相比基线 -5.9%）。我们将此归因于级联路由机制之间的梯度干扰：骨干和颈部的 ES-MoE 模块在反向传播过程中会产生冲突的路由梯度，破坏了训练稳定性并阻碍了专家专门化。这一发现揭示了一个重要的设计原则：更多的 ES-MoE 模块并不能保证更好的性能，精心的放置对于避免负面交互至关重要。基于这些结果，我们采用仅骨干网络集成 ES-MoE 作为默认配置，以平衡精度和训练稳定性。

4.3.2. 专家数量

表 6 研究了专家数量对性能-效率权衡的影响。四个专家 在 62.3% mAP 和 82.2% mAP50，参数为 276 万时达到最佳平衡。仅使用 两个专家 导致 mAP 下降 1.3%（61.0%），表明其建模不同尺度和语义类别下多样化目标模式的能力不足。扩展到 八个专家 未能带来改进（62.0% mAP，-0.3%），同时参数增加了 33%（368 万），这表明存在过参数化问题，冗余的专家带来的收益递减。这验证了适度的专家多样性足以捕捉目标检测中的多尺度变化，我们采用 4个专家 作为默认配置。

4.3.3. Top-K 选择策略

在给定 4 个专家的条件下，我们在表 7 中分析了 top-K 路由的效果。Top-2 路由 在 50% 稀疏度下取得了最佳性能（61.8% mAP）。Top-1 路由 遭受了 -0.5% 的 mAP 下降（61.3%），表明表征能力不足。激活 3个或4个 专家则未能带来进一步的收益。K=2 的甜点验证了我们的设计：两个互补的专家提供了足够的特征多样性，同时保持了计算效率。这一发现与最近的 MoE 文献 $7, 33$ 一致，表明在视觉任务中，超过 K=2 的收益会递减。

4.3.4. 损失函数配置

表 8 和图 3 分析了五种损失配置。出乎意料的是，完全移除 DFL 损失并仅使用 MoE 损失（权重=1.5）获得了 62.2% mAP 的最佳性能（比基线提升 +0.3%）。训练动态（图 3）解释了这一点：配置 4（DFL + 强 MoE λ=1.5）表现出严重的振荡，而配置 5（仅 MoE 损失）则平滑收敛。我们假设 DFL 损失和 MoE 损失会产生冲突的梯度。具体来说，DFL 强制执行基于均匀分布的精炼，而 MoE 损失鼓励实例自适应的专家专门化。当两者都具有显著权重时，它们会争夺梯度主导权，导致训练不稳定（配置 4：61.4% mAP，最差）。移除 DFL 消除了这一冲突，允许 MoE 损失同时指导回归和专家专门化。这表明，在混合专家架构中，MoE 损失有效地涵盖了 DFL 的角色。我们采用配置 5（仅 MoE 损失，λ = 1.5）作为默认配置。

4.3.5. 下游任务泛化

为了进一步评估 YOLO-Master 的通用性，我们将从消融研究中得到的最优配置扩展到图像分类和实例分割任务。

分类。如表 3 所示，YOLO-Master-cls-N 在 ImageNet 上达到了 76.6% 的 Top-1 准确率，相比 YOLOv11 和 YOLOv12 分别带来了 6.6% 和 4.9% 的显著提升。这突显了我们骨干网络强大的特征表示能力。

分割。在表 4 中，YOLO-Master-seg-N 实现了 35.6% 的掩膜 mAP，超过了 YOLOv12-seg-N 2.8%，展示了在定位和掩膜预测方面的同步改进。

检测总结。作为补充，我们的检测变体（表 2）实现了 49.1% 的边界框 mAP，为小规模模型设立了新的最先进水平。这些一致的跨任务改进证实了 YOLO-Master 作为一个强大且通用的架构，能够有效提升多样化视觉识别范式的性能。

4.4. 定性分析

图 4 展示了四种代表性挑战性场景的定性比较。YOLO-Master-N 相较于基线方法表现出一致的改进：

小目标检测（第 1 行）。在草地上有小动物的户外场景中，早期版本（v10-v11）未能检测到远处的目标。YOLOv12-N 以低置信度 0.47 开始检测，YOLOv13-N 提升到 0.53，而 YOLO-Master-N 则实现了置信度较高（0.65-0.82）且定位准确的检测，验证了尺度自适应专家路由在挑战性背景中处理小尺度目标的有效性。

类别消歧（第 2 行）。岩石附近有鸟的海岸场景呈现了挑战性的背景伪装。尽管 YOLOv10-N 到 v12-N 未能检测到被遮挡的人，YOLOv13-N 实现了边缘性检测。YOLO-Master-N 则产生了精确的检测和定位（青色框），表明专家专门化能够更好地从复杂背景中区分被遮挡的目标。

复杂场景（第 3 行）。在具有重叠动物和人类交互的剪羊毛挑战性场景中，YOLO-Master-N 实现了清晰的检测和准确定位（平均置信度 0.85 对 v13 的 0.77），展示了对复杂场景的有效处理。

密集场景（第 4 行）。在包含众多重叠物体（瓶子、杯子、餐具）和一个人的挑战性用餐场景中，早期版本遗漏了许多小物品。YOLO-Master-N 实现了全面的检测，且置信度较高（0.87-0.97），展示了在密集、杂乱环境中的卓越能力。

在所有场景中，YOLO-Master-N 实现了更高的平均置信度和更完整的检测覆盖率，证明了 ES-MoE 的自适应专家专门化对于多样化现实世界挑战的有效性。

5. 结论

在本文中，我们提出了 YOLO-Master，一个新颖的实时目标检测框架，它将高效稀疏混合专家模型引入到 YOLO 架构中。我们的方法通过一个轻量级的动态路由网络，解决了模型容量与计算效率之间的根本权衡。我们在训练时采用软 Top-K 路由以保持梯度流，在推理时切换到硬 Top-K 路由以实现真正的计算稀疏性。在五个大规模基准上进行综合实验表明，YOLO-Master 以卓越的效率实现了最先进的性能。这证明了稀疏 MoE 架构可以成功应用于密集预测任务，并表明动态专家选择能同时提升精度和效率。展望未来，我们的方法可以扩展到检测以外的其他视觉任务，为资源受限设备上通过具有条件计算能力的自适应神经架构实现高效实时视觉系统铺平道路。