SDD-YOLO：面向地空反无人机监控的小目标检测框架与边缘高效部署

陈鹏宇¹,* 萨浩天¹ 胡一伟¹ 程雨涵¹ 王军博²

¹东南大学吴健雄学院，中国南京

²东南大学信息科学与工程学院，中国南京

2026年3月27日

摘要

从地空（G2A）视角检测小型无人机（UAV）面临显著挑战，包括极低的像素占用率、杂乱的空中背景以及严格的实时性约束。现有的基于YOLO的检测器主要针对通用目标检测进行优化，往往缺乏对亚像素目标的充分特征分辨率，同时在部署时引入复杂性。本文提出了SDD-YOLO，一种专为G2A反无人机监控定制的小目标检测框架。为捕获微目标至关重要的细粒度空间细节，SDD-YOLO引入了在4×4 \times4×下采样下运行的P2高分辨率检测头。此外，我们整合了YOLO26的最新架构进展，包括无需分布焦点损失（DFL-free）、无需非极大值抑制（NMS-free）的架构以实现精简推理，以及结合渐进式损失（ProgLoss）和小目标感知标签分配（STAL）的MuSGD混合训练策略，显著缓解了稀疏小目标信号上的梯度振荡。为支持评估，我们构建了DroneSOD-30K，一个包含约30,000张标注图像的大规模G2A数据集，涵盖多样化的气象条件。实验表明，SDD-YOLO-n在DroneSOD-30K上取得了86.0%86.0\%86.0%的mAP@0.5，超越YOLOv5n基线7.87.87.8个百分点。广泛的推理分析显示，我们的模型在NVIDIA RTX 5090上达到226 FPS，在Intel Xeon CPU上达到35 FPS，为未来边缘部署展现出卓越的效率。

关键词：无人机检测，小目标检测，地空监控，高效推理，YOLO，知识蒸馏

1. 引言

无人机（UAV）的快速普及既改变了民用低空空域管理，也重塑了现代军事行动。在民用场景中，无人机相关事件------从机场附近未经授权的空域入侵到恶意监视------构成了日益增长的安全威胁，需要可靠的检测系统。在军事领域，小型无人机在近期冲突中的广泛部署凸显了对有效反无人机（C-UAV）技术的迫切需求 $3, 19$ 。

地空（G2A）无人机检测本质上具有挑战性，主要源于三个叠加因素。首先，从地面相机在超过100米距离观测的无人机，在标准分辨率图像中通常占用少于16×1616 \times 1616×16像素，提供的纹理或结构判别线索极少。其次，空中背景引入了异质性杂波------云层、鸟类、建筑物和强逆光------导致通用检测器产生严重的误报。第三，实际部署要求在资源受限的边缘硬件（如国产NPU平台）上实现实时推理（≥30\ge 30≥30 FPS），而许多标准深度学习算子要么不被支持，要么在INT8量化下性能显著下降。

最先进的实时检测器，特别是YOLO系列 $8, 9$ ，在MS-COCO等通用目标基准上已展现出令人印象深刻的性能。然而，它们在G2A小目标场景中存在两个关键不足。首先，标准YOLO架构中最小的检测特征图在8×8 \times8×下采样（P3）下运行，这将8像素目标缩减为单个像素的特征响应，丢失所有几何细节。其次，YOLOv8/v11中存在的分布焦点损失（DFL）模块涉及Softmax和积分运算，这些运算在国产NPU量化流程（如Ascend ATC、RKNN-Toolkit2）中支持不佳，导致在INT8转换过程中精度严重崩溃。此外，现有的面向G2A无人机检测的公开数据集在规模、气象多样性和"点级"目标（少于20像素）覆盖方面仍然有限。

为应对这些挑战，我们做出以下贡献：

DroneSOD-30K数据集：我们构建了一个大规模G2A无人机检测数据集，包含约30,000张高分辨率图像，涵盖极端光照条件（强逆光、浓雾、黎明/黄昏）、复杂背景（城市、森林）以及小至几个像素的微目标。所有图像均提供细粒度的YOLO格式标注。
SDD-YOLO架构 ：我们引入了一种原创的在4×4 \times4×下采样下运行的P2高分辨率检测头，结合双重注意力机制，显著增强了亚16像素无人机的特征表示和抗干扰能力。
整合YOLO26创新：我们整合了YOLO26框架 $8$ 的最新进展，成功将其无需DFL、无需NMS的架构以及结合ProgLoss和STAL的MuSGD混合优化适配到G2A场景，专门用于稳定和增强小目标检测。
推理效率验证：我们在高性能GPU和CPU平台上进行了全面的效率分析，证明SDD-YOLO在保持极具竞争力的帧率的同时，相比YOLO基线取得了显著的精度提升。

本文其余部分组织如下：第2节回顾相关工作。第3节描述DroneSOD-30K数据集。第4节介绍SDD-YOLO架构。第5节报告实验结果，第6节总结全文。

2. 相关工作

2.1 地空无人机检测

在地空（G2A）可见光无人机目标检测领域，现有研究已取得显著进展。Zheng等人 $21$ 引入的Det-Fly数据集作为微无人机视觉检测的基础基准，已被广泛用于评估各种模型在小目标场景中的性能。Du等人 $4$ 开发了Eagle-YOLO，通过分层粒度模块在公开基准上取得了显著提升。Nguyen等人 $13$ 提出了轻量级HEDD模型，专门针对地面RGB监控场景进行优化。

然而，当前方法仍存在明显局限。在极小目标检测中，即使是先进模型对于远距离微小目标（像素数<20< 20<20）的漏检率仍然相对较高，并且难以有效区分无人机与鸟类等空中干扰物 $2, 21$ 。在效率方面，许多模型依赖后处理操作，阻碍了纯端到端加速。我们的工作通过细化特征粒度并利用纯端到端推理范式来解决这些差距。

2.2 YOLO架构演进

自YOLOv5 $9$ 以来，YOLO家族经历了快速演进，从YOLOv8的无锚点解耦头 $10, 11$ ，发展到最近的YOLO26框架 $8$ 。YOLO26引入了突破性的端到端推理机制（无需NMS）和原生小目标感知标签分配（STAL）。虽然这些特性为通用目的提供了稳健基础，但专门的适配------如我们提出的P2头------对于充分释放其在极端G2A微目标上的潜力至关重要。

2.3 紧凑检测器的知识蒸馏

知识蒸馏 $5$ 为将大型教师模型的表示能力迁移到紧凑学生模型提供了有效范式。在目标检测中，特征对齐蒸馏损失已被证明可以保留对小目标定位至关重要的细粒度空间特征 $1, 16, 18$ 。

3. DroneSOD-30K数据集

3.1 数据采集与标注

DroneSOD-30K通过真实采集与针对性仿真增强相结合的方式构建。我们部署地面固定相机，在不同气象条件下捕获30--300米高度的无人机。为解决稀有条件样本（如大雨、极端逆光）的稀缺性，我们采用了基于生成的合成方法。所有图像均以标准YOLO格式标注。标注过程中的一个关键重点是确保"点级"目标（占用少于20像素）的高质量边界框。

3.2 数据集统计

具体而言，DroneSOD-30K被划分为三个互斥的子集用于模型训练、验证和测试：训练集包含30,655张图像，验证集包含14,010张图像，测试集包含3,085张图像。表1将DroneSOD-30K与现有公开可用的G2A数据集进行比较，突显了其规模和丰富的大气多样性。

表1 ：DroneSOD-30K与现有G2A无人机数据集的比较。"G2A"=地空视角；"Small"=目标<32×32< 32 \times 32<32×32像素；"Atmos."=大气多样性。

数据集	年份	图像数	模态	G2A	Small	Atmos.
Drone-vs-Bird $2$	2021	~12K	RGB	✓	部分	有限
Anti-UAV410 $7$	2024	410序列	RGB+IR	✓	✓	有限
Det-Fly $21$	2021	~13K	RGB	✓	✓	中等
DroneSOD-30K(ours)	2026	~30K	RGB	✓	✓	丰富

4. 方法

4.1 整体架构

SDD-YOLO以YOLO系列高效的nano尺度架构为基础，深度整合了YOLO26 $8$ 的最新原理。整体流程包括基于CSP的骨干网络、融合我们定制P2分支的增强颈部、双重注意力机制，以及端到端双重分配检测头。

4.2 P2高分辨率检测头

标准YOLO架构使用P3（8×8 \times8×下采样）作为最高分辨率特征图。对于640×640640 \times 640640×640的输入，占用8×88 \times 88×8像素的目标在P3处被缩减为1×11 \times 11×1的特征响应------不足以进行可靠定位。

为显式解决G2A微目标问题，我们设计并集成了一个在4×4 \times4×下采样下运行的P2检测头。在我们1024×10241024 \times 10241024×1024的输入分辨率下，大小为sss像素的目标产生的特征响应大小为：
fP2=s4,fP3=s8(1)f_{P2} = \frac{s}{4}, \quad f_{P3} = \frac{s}{8} \quad (1)fP2=4s,fP3=8s(1)

对于8像素目标，fP2=2f_{P2} = 2fP2=2，保留了包含关键边缘纹理的2×22 \times 22×2感受野，而fP3=1f_{P3} = 1fP3=1将其坍缩为单点。P2特征图通过通过C3瓶颈融合浅层骨干输出与上采样的P3特征获得，从而保留高频空间细节。

4.3 精简计算的无DFL设计

遵循YOLO26 $8$ 引入的结构创新，SDD-YOLO舍弃了YOLOv8/v11中存在的分布焦点损失（DFL）模块。DFL将边界框回归建模为离散概率分布：
b^=∑i=0npi⋅i,p=Softmax(z)(2)\hat{b} = \sum_{i=0}^{n} p_i \cdot i, \quad p = \text{Softmax}(z) \quad (2)b^=i=0∑npi⋅i,p=Softmax(z)(2)

公式(2)中的Softmax算子增加了计算开销，并且在边缘NPU上进行INT8对称量化时已知会导致精度崩溃（由于对输入尺度偏移的指数敏感性）。通过设置dfl=0.0dfl = 0.0dfl=0.0，我们用直接的IoU优化回归损失替代了DFL分支：
Lbox=1−WIoU(b^,b∗)(3)L_{box} = 1 - \text{WIoU}(\hat{b}, b^*) \quad (3)Lbox=1−WIoU(b^,b∗)(3)

其中b∗b^*b∗是真实框，WIoU\text{WIoU}WIoU表示Wise-IoU v3。这显著简化了推理时的计算图。

4.4 无需NMS的端到端推理

通过非极大值抑制（NMS）的传统后处理引入了可变且计算密集的CPU操作。借助YOLO26范式 $8$ ，SDD-YOLO采用了无需NMS的双重标签分配机制。它采用：

训练期间的一对多（O2M）分配以提供丰富的梯度信号，
推理期间的一对一（O2O）分配，确保每个目标恰好产生一个预测而无需NMS。

与基于NMS的基线相比，这在资源受限的SoC上将端到端推理延迟降低了约20%20\%20%--30%30\%30%。

4.5 双重注意力机制

为抑制来自空中杂波（鸟类、云层、建筑物边缘）的误报，我们在骨干网络与检测头之间嵌入双重注意力模块：空间注意力在广阔的空中视野内突出高概率运动区域，抑制静态背景激活；通道注意力重新加权特征通道以放大无人机判别性频率响应并抑制背景主导的通道。

组合的注意力权重A∈RC×H×WA \in \mathbb{R}^{C \times H \times W}A∈RC×H×W定义为：
A=σ(Wc⋅GAP(F))⊗σ(Conv7×7( $AvgPool;MaxPool$ (F)))(4)A = \sigma(W_c \cdot \text{GAP}(F)) \otimes \sigma(\text{Conv}_{7 \times 7}( $\\text{AvgPool}; \\text{MaxPool}$ (F))) \quad (4)A=σ(Wc⋅GAP(F))⊗σ(Conv7×7( $AvgPool;MaxPool$ (F)))(4)

其中σ\sigmaσ是sigmoid函数，GAP\text{GAP}GAP是全局平均池化，⊗\otimes⊗表示逐元素乘法。

4.6 YOLO26的MuSGD混合训练策略

在稀疏微目标数据上训练通常会导致严重的梯度振荡和权重矩阵的秩消失。为解决这一问题，我们采用MuSGD混合训练策略，这是Moonshot AI $12$ 引入的Muon优化器的视觉中心适配。虽然Muon最初设计用于加速大语言模型（LLM）训练，但YOLO26 $8$ 率先通过分解更新机制将其集成到实时目标检测中。

MuSGD通过Newton-Schulz迭代对骨干网络中的高维权重矩阵应用梯度正交化。这确保更新方向保持正交，即使在稀疏监督下也能有效保持特征表达能力。

形式上，对于骨干权重矩阵WWW，更新规则定义为：
G′=NS(G),W←W−ηG′(5)G' = \text{NS}(G), \quad W \leftarrow W - \eta G' \quad (5)G′=NS(G),W←W−ηG′(5)

其中NS(⋅)\text{NS}(\cdot)NS(⋅)表示Newton-Schulz正交化过程。为保持非矩阵参数的训练稳定性，对一维张量（如偏置和归一化层）保留标准的带动量SGD。

此外，为补充MuSGD优化器，我们利用YOLO26的ProgLoss（渐进式损失）在训练周期中动态重新加权损失组件。这与STAL（小目标感知标签分配）相结合，为微目标锚点分配自适应的更高权重。这些方法共同构成了一个稳健的训练流程，有效应对微目标检测中固有的极端前景-背景不平衡。

4.7 特征对齐知识蒸馏

为将高性能教师模型的稳健检测能力迁移到我们紧凑的学生模型，我们采用多尺度特征对齐知识蒸馏（KD）方案。具体而言，我们利用预训练的YOLO26x（或微调的重型YOLO-X）教师模型来指导SDD-YOLO-n学生的训练。总目标函数被公式化为任务特定检测损失与蒸馏损失的加权和：
Ltotal=(1−λ)⋅Ltask+λ⋅LKD(6)L_{total} = (1 - \lambda) \cdot L_{task} + \lambda \cdot L_{KD} \quad (6)Ltotal=(1−λ)⋅Ltask+λ⋅LKD(6)

其中LtaskL_{task}Ltask包含标准的框回归、分类和目标性损失。蒸馏项LKDL_{KD}LKD利用Kullback-Leibler（KL）散度在特征金字塔的P2--P5层级对齐教师模型与学生模型之间的多尺度特征表示。

每个特征层级lll的蒸馏损失定义为：
LKD=∑l∈{P2,P3,P4,P5}T2⋅KL(σ(zslT)∥σ(ztlT))(7)L_{KD} = \sum_{l \in \{P2, P3, P4, P5\}} T^2 \cdot \text{KL}(\sigma(\frac{z_s^l}{T}) \parallel \sigma(\frac{z_t^l}{T})) \quad (7)LKD=l∈{P2,P3,P4,P5}∑T2⋅KL(σ(Tzsl)∥σ(Tztl))(7)

其中zslz_s^lzsl和ztlz_t^lztl分别表示学生和教师在特征层级lll的logits，σ\sigmaσ表示softmax函数，TTT是温度超参数。经过经验验证，我们设置蒸馏权重λ=0.5\lambda = 0.5λ=0.5和温度T=3.0T = 3.0T=3.0，以确保平衡的梯度流，使学生能够有效内化教师的软标签分布，同时保持高定位精度。

5. 实验

5.1 实现细节

模型在配备32GB显存的NVIDIA RTX 5090上使用PyTorch进行训练。推理效率评估在两种不同的硬件配置上进行：RTX 5090 GPU和25核CPU环境（Intel Xeon Platinum 8470Q）。数据增强包括Mosaic、Mixup和多尺度训练。

5.2 主要结果与演进分析

表2提供了我们提出的SDD-YOLO框架在其演进阶段与原生基线模型及大规模教师网络在具有挑战性的DroneSOD-30K上的全面比较。

表2：DroneSOD-30K上的综合性能与效率比较。推理测试在NVIDIA RTX 5090（GPU FPS）和25核Intel Xeon Platinum 8470Q（CPU FPS）上进行。

模型	参数量(M)	FLOPs(G)	精确率	召回率	mAP@.5	mAP@.5:.95	CPU FPS	GPU FPS
跨域评估（在外部数据集如Anti-UAV上训练）
YOLOv5s(External)	9.12	24.04	0.685	0.353	0.398	0.136	16.3	224.9
YOLO26n(External)	2.50	5.77	0.615	0.348	0.377	0.135	30.4	168.2
原生基线（在DroneSOD-30K上从头训练）
YOLOv5n(Native)	2.51	7.18	0.881	0.726	0.782	0.382	34.9	231.4
YOLO26n(Native)	2.50	5.77	0.884	0.723	0.786	0.403	34.7	227.1
SDD-YOLO迭代演进（学生模型）
SDD-YOLO-n(Hyper-tuned)	2.50	5.77	0.896	0.741	0.823	0.437	31.3	172.7
SDD-YOLO-n(+ P2 Head)	2.50	5.77	0.888	0.800	0.849	0.482	34.2	223.6
SDD-YOLO-n(Final)	2.50	5.77	0.914	0.810	0.860	0.480	35.0	226.0
用于知识蒸馏的教师模型
Teacher(YOLO26l-v1)	26.18	93.12	0.901	0.776	0.873	0.464	5.9	117.4
Teacher(YOLO26l-v2)	58.81	208.51	0.926	0.840	0.905	0.501	3.1	117.4
Teacher(YOLO26x-base)	57.81	254.82	0.908	0.849	0.911	0.530	2.5	98.4
Teacher(YOLO26x-final)	58.81	208.51	0.942	0.917	0.942	0.642	3.0	113.3

扩展的表2展示了我们框架在不同发展阶段稳健的性能演进。最初，在第三方公开数据集（如Anti-UAV）上预训练的模型在DroneSOD-30K上表现出较差的跨域迁移能力（mAP@.5低于40%40\%40%），强调了我们的亚像素微目标场景相比传统数据集的极端难度。

通过在DroneSOD-30K上进行原生训练，YOLO26n基线建立了78.6%78.6\%78.6% mAP@.5的竞争性起点。随后，我们系统优化了训练范式（整合专门的Mosaic缩放和最优输入分辨率，记为'Hyper-tuned'），将mAP@.5提升至82.3%82.3\%82.3%。最显著的突破发生在我们定制P2高分辨率检测头的架构集成时。这一修改深刻增强了网络对微目标的空间敏感性，将mAP@.5推至84.9%84.9\%84.9%，并最终在我们完全优化的SDD-YOLO-n(Final)达到86.0%86.0\%86.0%。

最值得注意的是，这些渐进式性能里程碑的达成完全没有牺牲计算效率。与较旧的YOLOv5n原生基线相比，我们最终的SDD-YOLO-n模型保持了更低的参数量并降低了计算开销（5.775.775.77 vs. 7.187.187.18 GFLOPs）。深入的推理分析验证了我们的模型在NVIDIA RTX 5090上达到226 FPS，在Intel Xeon CPU上达到35 FPS。这 firmly确立了SDD-YOLO作为一种高精度且结构轻量级的解决方案，完全适用于实时边缘部署。

5.3 消融实验

为验证每个提出组件的独立贡献，我们进行了两部分消融实验，聚焦于检测精度和硬件推理效率。

结构与训练组件的影响：如表3所示，我们评估了P2高分辨率头和基于YOLO26的优化套件带来的增量增益。

从一个强大的原生基线（0.7860.7860.786 mAP@.5）开始，引入P2检测头将mAP@.5显著提升至0.84190.84190.8419。这一提升主要源于亚16像素目标上更高的召回率，其中4×4 \times4×下采样保留了在8×8 \times8× P3层级通常会丢失的关键空间线索。此外，无需NMS的端到端分配与MuSGD优化器和STAL策略的结合，确保了训练稳定性并进一步细化了决策边界，最终达到0.8600.8600.860 mAP@.5的最终性能。

表3：关于检测精度的关键设计选择的消融实验。

P2头	¬DFL	NMS-free	MuSGD	STAL	mAP@.5	mAP@.5:.95
					0.8341	0.4632
✓					0.8419	0.4891
✓	✓	✓	✓	✓	0.8600	0.4797

效率与实时可行性：在表4中，我们分析了推理吞吐量的演进。原生YOLO26n作为高效基线达到30.4 FPS。有趣的是，在中间版本（SDD-YOLO-n Intermediate）中添加P2头最初保持了相似的帧率（30.8 FPS）。最显著的效率提升出现在最终的SDD-YOLO-n变体中，达到35.0 FPS。尽管保持相同的P2架构，从30.8到35.0 FPS的跃升直接归因于移除DFL算子并过渡到纯无需NMS的推理图。通过消除非极大值抑制的CPU受限后处理瓶颈，我们实现了一个比原始基线更准确且更快的模型。

表4：关于CPU推理效率（Intel Xeon 8470Q）的消融实验。

模型变体描述	参数量(M)	FLOPs(G)	CPU FPS
YOLOv5n(Native) YOLOv5n基线	2.509	7.18	34.9
YOLO26n(Native) YOLO26 Nano基线	2.504	5.77	30.4
SDD-YOLO-n(Inter.) + P2头	2.504	5.77	30.8
SDD-YOLO-n(Final) 完整优化	2.504	5.77	35.0

5.4 推理效率分析

图5展示了代表性检测对比。SDD-YOLO成功检测了占用少于20像素的微无人机，同时消除了经常误导传统基线的空中杂波误报。

虽然直接NPU部署和INT8量化计划作为未来工作，但我们在高性能平台上分析了我们无需NMS架构的原始计算效率（表2）。在Intel Xeon CPU上，SDD-YOLO-n以35.0 FPS运行，严格匹配较旧的YOLOv5n的速度，同时提供显著优越的精度。在RTX 5090上，它实现了惊人的226.0 FPS，证明无需DFL和无需NMS的机制成功地将计算瓶颈降至最低。

为评估SDD-YOLO的实际部署潜力，我们在Intel Xeon Platinum 8470Q CPU（25 vCPUs）上进行了广泛的推理基准测试。表2中总结的结果以及通过测试中缩放趋势可视化的结果，揭示了架构效率的几个关键见解。

CPU吞吐量与效率 ：如表2结果所示，我们最终优化的nano变体（SDD-YOLO-n Final）在CPU上实现了35.0 FPS的吞吐量。值得注意的是，这一性能略优于YOLOv5n(Native)基线（34.9 FPS）。这是一个重要结果：尽管我们的模型整合了通常会增加计算负载的高分辨率P2检测头，但整体效率得以保持。这主要归因于基于YOLO26的骨干网络和无DFL设计中固有的架构精简，这将总计算复杂度降低至5.775.775.77 GFLOPs------比YOLOv5n基线所需的7.187.187.18 GFLOPs低约19.6%19.6\%19.6%。

缩放与硬件利用率 ：我们进一步分析了从轻量级Nano变体（_{2.5M参数）到巨型教师模型（}58.8M参数）的性能缩放。模型规模对推理延迟的影响是显著的：

轻量级效率：YOLO26n(External)和YOLO26n(Native)变体均保持了高于30 FPS的高度可用吞吐量，证明了它们适用于实时边缘处理。
教师瓶颈：相比之下，高容量教师模型（YOLO26l和YOLO26x）在CPU性能上表现出急剧下降，分别降至5.9 FPS和3.0 FPS。虽然这些模型为知识蒸馏提供了优越的mAP，但其高延迟使它们在没有专用GPU加速的情况下不适合直接部署到地空监控硬件上。

这些结果强化了我们选择nano尺度学生模型的设计决策，该模型在微目标所需的定位精度与G2A监控的严格实时约束之间实现了"最佳平衡点"。

这种差异表明，我们的轻量级设计针对通用处理器进行了异常优化的设计。虽然大型模型严重依赖GPU（如RTX 5090）的并行处理能力来维持帧率，但SDD-YOLO-n被设计为指令高效，确保即使在可能无法获得专用GPU加速的G2A监控场景中也能保持高性能。

6. 结论

在本工作中，我们提出了SDD-YOLO，一种专为地空反无人机监控设计的稳健小目标检测框架。通过将我们新颖的P2高分辨率检测头与YOLO26的前沿无需NMS架构和MuSGD训练策略相结合，SDD-YOLO解决了微目标上特征丢失和梯度不稳定的根本问题。在我们新引入的DroneSOD-30K数据集上评估，nano变体在标准CPU上以实时速度运行、在GPU上超过200 FPS的同时，取得了令人印象深刻的86.0%86.0\%86.0% mAP50。

未来工作：我们计划（i）正式将该架构的量化INT8版本映射并部署到国产NPU平台（如Rockchip RK3588、Horizon Sunrise），以及（ii）通过热红外模态扩展DroneSOD-30K以支持多光谱、全天候检测。