低空安全刚需！西工大UAV-DETR反无人机小目标检测，参数减少40%，mAP50:95提升6.6个百分点

导读

反无人机检测正在成为低空安全领域的核心需求，但无人机目标尺寸小、背景复杂、尺度变化剧烈，传统检测器在这一场景下的精度和召回率往往难以兼顾。

西北工业大学团队提出UAV-DETR，在RT-DETR基础上做了四项针对性改造------用小波变换卷积替换骨干网络的标准卷积以保留小目标高频细节，用滑动窗口自注意力替换全局注意力以避免小目标特征被淹没，引入跨尺度特征融合模块增强多尺度表达，并设计InnerCIoU-NWD混合损失解决小框梯度不足的问题。在自建的14,713张反无人机数据集上，UAV-DETR以11.96M参数（比RT-DETR减少约40%）实现了62.56%的mAP50:95（比RT-DETR提升+6.61个百分点），Precision 96.82%、Recall 94.93%均为所有对比方法中最高。在公开基准DUT-ANTI-UAV上同样验证了一致的改进。

论文信息

标题：UAV-DETR: DETR for Anti-Drone Target Detection
作者：Jun Yang, Dong Wang, Hongxu Yin, Hongpeng Li, Jianxiong Yu
机构：西北工业大学自动化学院
代码：github.com/wd-sir/UAVD...

一、反无人机检测难在哪？

无人机在低空空域的广泛应用带来了安全监管需求，反无人机目标检测是其中的关键技术环节。但这一任务面临几个特有的挑战：

小目标占比高。 无人机在远距离监控画面中通常只占据极少像素，边界框面积小，传统基于IoU的损失函数对这类目标的梯度贡献不足，导致定位精度难以提升。

背景干扰严重。 城市天际线、树林、复杂光照和天气条件下，无人机与背景的对比度低，全局注意力机制容易被大量背景token稀释，小目标的弱特征被淹没。

尺度变化剧烈。 同一场景中可能同时出现近距离的大尺度无人机和远距离的极小目标，要求检测器具备强健的多尺度特征融合能力。

UAV-DETR正是针对这些问题，从骨干网络、编码器、特征融合和损失函数四个层面对RT-DETR进行改造。

二、UAV-DETR的四个核心改进

图片来源于原论文

2.1 WTConv Block：小波变换卷积骨干

传统卷积对小目标的高频结构细节（如旋翼轮廓、机臂边缘）的捕获能力有限。WTConv Block用小波变换卷积（Wavelet Transform Convolution） 替换标准卷积：

采用 2D Haar小波变换对特征图进行递归分解，得到低频子带（物体整体形状）和高频子带（细节与纹理）
深层分解对应更低的频率成分和更大的等效感受野
双级联结构：语义细化阶段（不降采样，保留空间分辨率）+ 空间压缩阶段（降采样）

消融实验中，仅引入WTConv Block就将mAP50:95从55.95%提升至59.78%（+3.83个百分点），同时参数量从19.87M降至14.71M。

2.2 SWSA-IFI编码器：滑动窗口自注意力

RT-DETR原始的全局自注意力（AIFI）在反无人机场景中容易让小目标特征被大量背景信息稀释。SWSA的改进策略：

用 1×1深度卷积生成Q/K/V，大幅减少参数
窗口大小w > 步长s，重叠窗口保证空间连续性
引入 可学习相对位置编码（RPE）

消融显示加入SWSA-IFI后FLOPs从59.2G降至52.6G（为所有配置中最低），参数从14.71M降至11.45M。

2.3 ECFRFN：跨尺度特征融合

包含两个子模块：

SBA模块：内含RAU（Re-calibration Attention Unit），自适应校准不同尺度的特征
RepNCSPELAN4模块 ：训练时多分支拓扑，推理时 重参数化为单个3×3卷积，不增加推理开销

消融中mAP50:95从59.51%提升至60.63%（+1.12个百分点），但FLOPs从52.6G增加至66.7G。

2.4 InnerCIoU-NWD混合损失

NWD：将边界框建模为2D高斯分布，即使不重叠也有非零梯度
InnerCIoU：对边界框缩放后计算CIoU，放大高IoU区域的有效梯度
组合：L_box = λ · L_InnerCIoU + (1-λ) · L_NWD

消融显示mAP50提升+1.95个百分点，mAP50:95提升+1.93个百分点，是唯一一个在两个指标上都有明显正向贡献的组件。

三、实验结果：对比11个基线方法

数据集

自建反无人机数据集包含 14,713张图像，融合开源档案和自采集真实数据，涵盖城市天际线、树林、不同光照/天气、单机和多机、极端尺度变化。训练:验证:测试 = 7:2:1。所有模型在RTX 3090上训练100 epochs。其中大部分模型从零训练（不使用预训练权重），但Faster R-CNN、SSD、DETR、Deformable DETR四个模型因从零训练收敛困难，使用了预训练权重初始化（论文中以_PT后缀标注）。

自建数据集主实验

模型	P(%)	R(%)	F1(%)	mAP50(%)	mAP75(%)	mAP50:95(%)	FLOPs(G)	Params
Faster R-CNN_PT	53.65	47.51	50.40	43.62	6.04	14.41	401.7	136.7M
SSD_PT	95.39	25.90	40.74	78.16	23.23	33.43	58.4	11.7M
YOLOv8m	94.74	87.43	90.94	93.06	67.54	60.21	78.7	25.8M
YOLOv10m	93.49	86.23	89.72	92.91	67.51	59.85	58.9	15.3M
YOLO11m	94.51	87.50	90.87	92.97	67.02	59.69	67.6	20.0M
YOLO12m	91.70	83.79	87.57	90.35	56.43	52.76	67.1	20.1M
Hyper-YOLOm	94.55	88.13	91.23	93.41	68.56	60.61	103.1	33.3M
DETR_PT	86.04	83.35	84.67	82.67	15.52	31.54	73.6	41.3M
Def-DETR_PT	92.24	72.59	81.24	78.26	32.30	38.28	157.4	39.8M
RT-DETR	96.28	93.63	94.94	95.45	58.55	55.95	56.9	19.9M
VRF-DETR	96.10	93.27	94.66	95.46	61.19	56.31	44.2	13.5M
UAV-DETR	96.82	94.93	95.87	96.58	71.08	62.56	66.7	11.96M

关键对比：

vs RT-DETR基线：mAP50:95 +6.61个百分点，mAP75 +12.53个百分点，参数减少约40%
vs YOLO系列最优Hyper-YOLOm：mAP50:95 +1.95个百分点，参数减少64%
vs VRF-DETR：mAP50:95 +6.25个百分点，但FLOPs 66.7G vs 44.2G，VRF-DETR计算量更低

DUT-ANTI-UAV公开基准

模型	P(%)	R(%)	F1(%)	mAP50(%)	Params
RT-DETR	89.80	87.60	88.69	92.20	19.9M
UAV-DETR	91.20	88.60	89.88	93.40	11.96M

Precision +1.4个百分点，F1 +1.19个百分点，mAP50 +1.2个百分点。改进幅度小于自建数据集。

图片来源于原论文

四、消融实验：WTConv贡献最大，混合损失双指标提升幅度最均衡

配置	mAP50(%)	mAP50:95(%)	FLOPs(G)	Params(M)
RT-DETR基线	95.45	55.95	56.9	19.87
+WTConv Block	95.53	59.78	59.2	14.71
+SWSA-IFI	95.73	59.51	52.6	11.45
+ECFRFN	94.63	60.63	66.7	11.96
+InnerCIoU-NWD	96.58	62.56	66.7	11.96

WTConv Block是mAP50:95提升最大的模块（+3.83个百分点），同时参数从19.87M降至14.71M
SWSA-IFI精度变化不大，但效率贡献显著：FLOPs降至52.6G，参数降至11.45M
ECFRFN提升mAP50:95 +1.12个百分点，但mAP50略降1.1个百分点
InnerCIoU-NWD在mAP50（+1.95）和mAP50:95（+1.93）两个指标上的提升幅度最大且最均衡（WTConv Block也同时提升了两个指标，但mAP50仅+0.08）

五、总结与思考

UAV-DETR以11.96M参数（减少约40%）实现了62.56%的mAP50:95（+6.61个百分点），在自建数据集和DUT-ANTI-UAV公开基准上均优于RT-DETR和多个YOLO变体。

几个值得关注的设计选择：

小波变换卷积的实用价值。 WTConv Block是消融中贡献最大的模块，不仅提升精度还减少参数。将频域分析引入骨干网络，对小目标检测具有天然适配性------小目标的区分性信息往往集中在高频子带。这一思路对其他小目标检测任务（如遥感、医学影像）也有借鉴意义。

局部注意力 vs 全局注意力的权衡。 SWSA-IFI的消融表明，在小目标主导的场景中，全局注意力并非最优选择。限制注意力范围不仅节省计算，还能防止小目标特征被稀释。

混合损失的互补性。 NWD解决不重叠框的梯度消失（对训练早期有利），InnerCIoU强化高IoU区间的精细定位（对训练后期有利），两者互补效果明确。

需要注意的局限：自建数据集目前仅发布代码未公开数据，外部复现需依赖DUT-ANTI-UAV；大部分模型从零训练（4个收敛困难的模型使用了预训练权重），这一混合设置下的对比需要注意公平性；FLOPs（66.7G）高于VRF-DETR（44.2G）和RT-DETR（56.9G），在对计算量敏感的边缘部署场景中需要权衡。