EFSI-DETR：用于无人机图像实时小目标检测的高效频域 - 语义集成方法

https://arxiv.org/pdf/2601.18597
作者：Yu Xia, Chang Liu, Tianqi Xiang, Zhigang Tu (IEEE 高级会员)

摘要

由于特征表示有限和多尺度融合效果不佳，无人机（UAV）图像中的实时小目标检测仍然具有挑战性。现有方法未能充分利用频率信息，且依赖于静态卷积操作，这限制了获取丰富特征表示的能力，并阻碍了对深层语义特征的有效利用。为了解决这些问题，我们提出了 EFSI-DETR，这是一种新颖的检测框架，集成了高效的语义特征增强与动态频域 - 空间引导。EFSI-DETR 包含两个主要组件：(1) 动态频域 - 空间统一协同网络（DyFusNet），联合利用频率和空间线索进行鲁棒的多尺度特征融合；(2) 高效语义特征集中器（ESFC），以最小的计算成本实现深层语义提取。此外，采用了细粒度特征保留（FFR）策略，在融合过程中纳入空间丰富的浅层特征，以保留对无人机图像中小目标检测至关重要的细粒度细节。在 VisDrone 和 CODrone 基准测试上的大量实验表明，我们的 EFSI-DETR 以实时效率实现了最先进的性能，在 VisDrone 数据集上 AP 和 APs 分别提升了 1.6% 和 5.8%，同时在单个 RTX 4090 GPU 上获得了 188 FPS 的推理速度。

索引术语：实时目标检测，无人机图像，频域 - 空间统一协同，语义特征集中器。

I. 引言

无人机（UAV）图像以其多样的视角、灵活的采集方式和广泛的覆盖范围，吸引了越来越多的研究关注 $1-8$ ，特别是在目标检测领域。尽管潜力巨大，但无人机图像给传统目标检测框架带来了独特的挑战，主要是由于像素表示有限的小目标普遍存在，如图 1(a) 所示。这种不足的像素覆盖严重限制了标准卷积操作提取判别性特征的能力。此外，卷积神经网络（CNN）中常用的下采样操作往往导致对精确检测至关重要的细粒度细节丢失 $9$ 。同时，许多现有方法依赖于静态融合策略，难以有效捕捉深层语义表示，并且未能利用频域中的关键信息来保留小目标的精细结构和纹理细节，从而限制了复杂无人机场景下的检测性能 $10-12$ 。

虽然 YOLO 系列检测器在通用目标检测场景中取得了显著成功 $13-15$ ，但其在无人机应用中的性能往往显著下降。一个关键的局限性在于其基于锚点（anchor-based）的设计，难以适应航空图像中固有的极端尺度变化。具体而言，预定义的锚框往往无法覆盖全部的目标尺寸范围，尤其是对于仅占据几个像素的小目标。此外，YOLO 采用的单阶段检测范式以牺牲表示灵活性为代价优先考虑效率。从特征到边界框的直接回归提供了有限的建模复杂空间关系和上下文线索的能力，而这些在杂乱的航空场景中至关重要。

相比之下，实时检测 Transformer（RT-DETR）提供了几种架构优势，非常符合无人机图像的独特需求 $10$ 。其端到端、无锚点（anchor-free）的设计消除了对手工设计锚点和非极大值抑制（NMS）等后处理步骤的需求，从而实现了更灵活的目标定位并降低了推理复杂度。基于 Transformer 的主干网络通过自注意力机制捕捉长程依赖和全局上下文 $16$ ，进一步提升了性能，这对于识别航空视图中的分散目标至关重要。此外，解码器结构支持复杂的特征交互，能够更细致地建模空间关系。然而，RT-DETR 并非没有局限性。虽然它解决了 YOLO 中存在的许多架构约束，但对于无人机图像来说仍非最优。特别是，它缺乏对频率信息的有效利用，并且在高效提取丰富语义特征方面表现出局限性。

为了解决这些问题，我们提出了 EFSI-DETR，这是一种新颖的检测框架，集成了高效的语义特征增强与动态频域 - 空间引导，如图 1(b) 所示。EFSI-DETR 基于 RT-DETR 架构构建，通过探索频率感知处理和语义特征提取机制对其进行增强。本文的主要贡献如下：

我们引入了 EFSI-DETR，这是一种专为复杂无人机场景设计的高效检测器，采用细粒度特征保留（FFR）策略，用详细的空间线索补充语义信息。我们的框架在保持实时性能的同时实现了卓越的精度。
我们提出了动态频域 - 空间统一协同网络（DyFusNet），这是一个频域 - 空间融合模块，它以模拟方式将特征分解为多分辨率频谱分量，并根据输入特征自适应地整合它们。
我们利用了高效语义特征集中器（ESFC），这是一个轻量级且具备语义意识的模块，通过利用内容自适应卷积选择来增强深层语义特征提取。
我们在两个具有挑战性的无人机基准测试（即 VisDrone 和 CODrone）上进行了全面评估。我们的 EFSI-DETR 在精度和效率方面均取得了显著提升，在 VisDrone 数据集上 AP 和 APs 分别超越最先进方法 1.6% 和 5.8%，同时在单个 RTX 4090 GPU 上保持了 188 FPS 的高推理速度。

II. 相关工作

a) 实时目标检测：实时目标检测一直是计算机视觉应用的基石。单阶段检测器如 YOLO 系列 $17$ 和 FCOS $18$ 通过平衡精度和效率取得了显著性能。最近的进展包括 YOLO11、YOLOv12 $19, 15$ 和 RT-DETR $10$ ，它们推动了 COCO $20$ 等标准基准测试上实时检测的界限。然而，这些方法主要关注具有中等分辨率的自然图像，而在高空拍摄的小目标普遍的无人机图像上表现挣扎。

b) 小目标检测：由于像素表示有限且易受背景噪声影响，小目标检测呈现出独特的挑战。传统方法专注于数据增强 $21$ 和多尺度训练 $22$ 以改善小目标识别。更复杂的方法，如 ClusDet $23$ （采用基于聚类的尺度估计）和 DM-Net $24$ （利用密度图进行空间上下文建模）。最近的工作探索了注意力机制和特征增强技术：QueryDet $25$ 引入了基于查询的金字塔特征加速，CEASC $26$ 应用上下文增强的稀疏卷积来捕获全局信息。虽然这些方法引入了轻量级和解耦的头以提供一定的加速效益，但实现实时目标检测仍然是一个巨大的挑战。

c) 多尺度特征融合：由于特征图中像素表示有限，小目标往往缺乏足够的语义和空间线索。为了缓解这一问题，多尺度特征融合已成为关键策略。特征金字塔网络（FPN） $9$ 通过结合语义丰富的深层特征和空间详细的浅层特征奠定了基础。PANet $27$ 引入了双向融合，而 BiFPN $28$ 采用加权聚合以提高效率。PAFPN $27$ 添加了自底向上的路径，NASFPN $29$ 利用神经架构搜索寻找最优融合。最近的方法如 FCOS $18$ 和 YOLOF $30$ 试图简化多尺度检测，同时保持性能。然而，大多数这些方法依赖于静态融合策略，导致深层语义信息的提取冗余且低效。此外，信息丰富的频域线索对小目标检测至关重要。先前的频率感知检测器如 UAV-DETR $31$ 通常在变换域中显式操作以提取带限特征。尽管具有表现力，但这些设计需要全局内存置换并在计算图中产生不可融合的边缘，最终限制了内核融合并削弱了在现代硬件上的推理效率。

在这项工作中，我们提出了 EFSI-DETR，这是一种新颖的基于 DETR 的框架，旨在通过具有动态频域 - 空间引导的高效语义特征增强来解决现有局限性，从而提高小目标检测性能，同时保持实时效率。

III. 方法

EFSI-DETR 的整体架构如图 2 所示，包含三个关键组件：动态频域 - 空间统一协同网络、高效语义特征集中器和细粒度特征保留。DyFusNet 利用频域 - 空间引导促进高效的多尺度特征融合。ESFC 采用低参数复杂度的轻量级设计，实现自适应语义特征提取。考虑到无人机图像的特征，FFR 在融合过程中纳入富含空间细节的特征图，从而保留细粒度信息，显著提高小目标的检测精度。

A. 动态频域 - 空间统一协同网络

动态频域 - 空间统一协同网络通过利用频率和空间信息的互补性，引入了一种新的多尺度特征表示学习范式。与依赖显式变换的经典频域方法不同，DyFusNet 采用频率启发但非 FFT 的公式，以保持现代推理引擎（TensorRT/ONNX 后端）上的部署效率。DyFusNet 不将特征转换为复杂的频谱基，而是使用硬件友好的轻量级算子直接在空间域中构建可学习的低/中/高频代理。这种选择避免了变换开销、复数到实数的转换以及通常阻碍实时吞吐量的不良内核融合特性。

a) 动态多分辨率频谱分解：动态多分辨率频谱分解（DMSD）模块不采用固定的频率分解，而是引入一种可学习机制，根据输入内容自适应地加权不同的频率启发分量。

该模块将输入特征分解为三个互补路径，以模拟不同的频率响应：

FDMSD(X)=∑i∈{low,mid,high}αi(X)Hi(X) \mathcal{F}{\mathrm{DMSD}}(\mathbf{X})=\sum{i\in\{\mathrm{low},\mathrm{mid},\mathrm{high}\}}\alpha_{i}(\mathbf{X})\mathcal{H}_{i}(\mathbf{X}) FDMSD(X)=i∈{low,mid,high}∑αi(X)Hi(X)

其中 Hi\mathcal{H}{i}Hi 代表频率选择算子，αi(X)\alpha{i}(\mathbf{X})αi(X) 表示内容自适应权重，根据内容分布动态调节每个频率分量的贡献。频率选择算子旨在捕捉互补的频谱特征：

$αlow,αmid,αhigh$ ⊤=softmax(W2⋅ϕ(W1⋅GAP(X))),(2)Hlow(X)=AvgPool3×3(X)Hmid(X)=Identity(X)Hhigh(X)=Conv3×3dw(X) \begin{aligned}\left $\\alpha_{low},\\alpha_{mid},\\alpha_{high}\\right$ ^{\top}&=softmax(\mathbf{W}2\cdot\phi(\mathbf{W}1\cdot GAP(\mathbf{X}))),(2)\\\mathcal{H}{low}(\mathbf{X})&=AvgPool{3\times3}(\mathbf{X})\\\mathcal{H}{mid}(\mathbf{X})&=Identity(\mathbf{X})\\\mathcal{H}{high}(\mathbf{X})&=Conv_{3\times3}^{dw}(\mathbf{X})\end{aligned} $αlow,αmid,αhigh$ ⊤Hlow(X)Hmid(X)Hhigh(X)=softmax(W2⋅ϕ(W1⋅GAP(X))),(2)=AvgPool3×3(X)=Identity(X)=Conv3×3dw(X)

其中 GAP 和 ϕ\phiϕ 分别表示全局平均池化和 GELU 激活函数。低频分量 Hlow\mathcal{H}{\mathrm{low}}Hlow 采用平均池化来捕捉平滑的全局结构信息，类似于低通滤波。中频分量 Hmid\mathcal{H}{\mathrm{mid}}Hmid 保留原始特征以保持详细信息。高频分量 Hhigh\mathcal{H}_{\mathrm{high}}Hhigh 利用深度卷积来增强边缘和纹理细节，有效地充当适应输入特征的可学习高通滤波器。

这种设计允许模块自适应地强调不同的频率分量，例如在纹理丰富区域增强高频细节，而在平滑背景区域强调低频分量。

为什么采用模拟频率处理？ 在自然图像分析中，频率选择性可以通过显式变换（如 FFT/DWT）或通过局部可学习空间算子来实现，后者的脉冲响应近似于标准的低通、带通或高通滤波器。由于空间中的卷积对应于傅里叶域中的乘法，局部核固有地引起频率响应。平均池化表现为强低通算子（sinc 状），恒等路径是全通的，深度卷积可以学习导数状核（如 Laplacian 或 Sobel），从而强调高频边缘和纹理。这形成了一种紧凑的滤波器组视图，与多分辨率分析 $32$ 和显式分离频率路径的空间架构 $33, 34$ 一致。与固定滤波器组不同，我们的动态权重 αi(X)\alpha_{i}(\mathbf{X})αi(X) 根据内容调整频段强调：纹理丰富区域接收更强的高频响应，而平滑背景则 favor 低频。这种模拟频率处理在标准填充下保持了平移等变性，通过预滤波减少了混叠，避免了全局变换带来的周期性边界伪影，并能自然地与现代检测主干网络集成。

为什么不使用类 FFT 变换？ 频谱变换（FFT/DCT/DWT）已在识别模型中显示出强大的全局混合能力 $35-37$ ，但它们给实时无人机部署带来了实际成本。(i) 内核融合 。FFT 流水线（前向变换、逐点乘法、逆变换）难以与相邻操作融合，导致额外的内核启动和同步。局部深度或逐点操作对编译器友好且易于融合。(ii) 内存流量 。全局变换需要非局部数据移动和复数张量，增加了带宽压力。(iii) 形状敏感性 。FFT 效率取决于输入因式分解；不规则尺寸需要填充或平铺，这使得边界附近的密集预测变得复杂。(iv) 硬件可移植性。高度优化的支持 int8 的 FFT 内核在边缘 NPU 和嵌入式 GPU 上不如标准卷积和池化常见。经验表明，基于傅里叶的混合有效地扩大了感受野，但在严格的延迟和内存预算下提供的益处有限。因此，我们采用了一种可部署、可学习且内容自适应的空间近似方法，在保留关键频谱优势的同时确保高效、稳定的推理。

b) 空间 - 频率协同调制 ：为了联合捕捉多感受野结构和通道级判别力，我们将空间聚合和频率引导的通道重加权集成到一个模块中，称为空间 - 频率协同调制（SFCM）。给定输入特征图 X~∈RC×H×W\tilde{\textbf{X}}\in\mathbb{R}^{C\times H\times W}X~∈RC×H×W，SFCM 首先使用并行多核算子聚合空间证据，该算子离散化尺度空间响应：

Z(X)=W1×1⋅X⏟channel mixing+∑k∈{3,5}Wkdw⋅X⏟depthwise k×k, \mathbf{Z}(\mathbf{X})=\underbrace{\mathbf{W}{1\times1}\cdot\mathbf{X}}{\mathrm{channel~mixing}}+\sum_{k\in\{3,5\}}\underbrace{\mathbf{W}{k}^{\mathrm{dw}}\cdot\mathbf{X}}{\mathrm{depthwise~}k\times k}, Z(X)=channel mixing W1×1⋅X+k∈{3,5}∑depthwise k×k Wkdw⋅X,

其中 W1×1∈RC×C×1×1\mathbf{W}{1\times1}\in\mathbb{R}^{C\times C\times1\times1}W1×1∈RC×C×1×1 表示用于跨通道混合的逐点卷积，Wkdw∈RC×1×k×k\mathbf{W}{k}^{\mathrm{dw}}\in\mathbb{R}^{C\times1\times k\times k}Wkdw∈RC×1×k×k 是核大小为 kkk 的深度卷积。这种加法合成保留了精细结构（通过 3×33\times33×3），聚合了更广泛的上下文（通过 5×55\times55×5），并通过通道投影（通过 1×11\times11×1）将它们耦合，产生适合后续调制的空间丰富张量 Z(X)∈RC×H×W\mathbf{Z}(\mathbf{X})\in\mathbb{R}^{C\times H\times W}Z(X)∈RC×H×W。然后通过从其全局统计信息估计每通道门控，将通道调制应用于 Z(X)\mathbf{Z}(\mathbf{X})Z(X)。我们形成通道描述符 s∈RC\mathbf{s}\in\mathbb{R}^{C}s∈RC，并通过带有逐点非线性的两层瓶颈将其映射到注意力系数 β∈(0,1)C\pmb{\beta}\in(0,1)^{C}β∈(0,1)C：

s=GAP(Z(X)),β(X)=σ(W2⋅δ(W1⋅s)), \begin{aligned}\mathbf{s}&=GAP(\mathbf{Z}(\mathbf{X})),\\\boldsymbol{\beta}(\mathbf{X})&=\sigma(\mathbf{W}_2\cdot\delta(\mathbf{W}_1\cdot\mathbf{s})),\end{aligned} sβ(X)=GAP(Z(X)),=σ(W2⋅δ(W1⋅s)),

其中 δ\deltaδ 是 ReLU，σ\sigmaσ 是逐通道应用的 Sigmoid。W1∈RCr×C\mathbf{W}{1}\in\mathbb{R}^{\frac{C}{r}\times C}W1∈RrC×C 和 W2∈RC×Cr\mathbf{W}{2}\in\mathbb{R}^{C\times\frac{C}{r}}W2∈RC×rC 代表卷积权重。rrr 是缩减率。最终的协同调制将空间聚合张量与沿空间维度广播的注意力向量相乘：

FSFCM(X)=Z(X)⊙β(X). \mathcal{F}_{\mathrm{SFCM}}(\mathbf{X})=\mathbf{Z}(\mathbf{X})\odot\pmb{\beta}(\mathbf{X}). FSFCM(X)=Z(X)⊙β(X).

在具有密集背景和小目标的无人机场景中，FSFCM\mathcal{F}_{\mathrm{SFCM}}FSFCM 保留了由深度分支捕获的高频细节，同时自适应地强调携带判别性响应的通道，并抑制由杂乱或噪声主导的通道。

DMSD 和 SFCM 用于 DyFusNet 的频率路径中。设 X∈RC×H×W\mathbf{X}\in\mathbb{R}^{C\times H\times W}X∈RC×H×W 为主干输入。我们将通道划分为两个子集，以避免对所有通道均匀应用频谱 - 空间处理：

X1,X2=Split⁡(X,ratio⁡=e), \mathbf{X}{1},\mathbf{X}{2}=\operatorname{Split}(\mathbf{X},\operatorname{ratio}=e), X1,X2=Split(X,ratio=e),

其中 e∈(0,1]e\in(0,1]e∈(0,1] 控制路由到频率路径的比例。频率路径首先执行动态多分辨率频谱分解，然后应用提出的协同调制：

Ffreq=FSFCM∘FDMSD, \mathcal{F}{\mathrm{freq}}=\mathcal{F}{\mathrm{SFCM}}\circ\mathcal{F}_{\mathrm{DMSD}}, Ffreq=FSFCM∘FDMSD,

统一输出通过连接后跟 1×11\times11×1 融合获得：

FDyFusNet(X)=Concat(Ffreq(X1),X2). \mathcal{F}{\mathrm{DyFusNet}}(\mathbf{X})=\mathrm{Concat}(\mathcal{F}{\mathrm{freq}}(\mathbf{X}{1}),\mathbf{X}{2}). FDyFusNet(X)=Concat(Ffreq(X1),X2).

在实践中，(6) 中的通道描述符是在 Z(X1)\mathbf{Z}(\mathbf{X}{1})Z(X1) 上计算的，使得门控对 FDMSD\mathcal{F}{\mathrm{DMSD}}FDMSD 传递的空间聚合、频段强调的激活做出响应。由此产生的流程巩固了多尺度空间证据和频率引导的通道选择，而无需诉诸显式的傅里叶算子，这对优化的推理后端和部署关键的无人机应用是有利的。

B. 高效语义特征集中器

如图 2 所示，提出的 ESFC 模块采用具有可学习融合权重的双分支架构，在计算效率和表示能力之间取得了有效平衡。这种设计显著增强了语义特征提取，这对于无人机图像中小目标的实时检测至关重要。

a) 动态专家卷积：传统卷积操作采用静态核，可能无法最优地适应不同空间区域变化的特征分布。为了解决这个问题，我们提出了动态专家卷积（DEConv），它利用多个具有学习注意力权重的专家卷积进行自适应核选择。

DEConv 采用 KKK 个专家卷积 Wk\mathbf{W}{k}Wk 和学习到的注意力权重 δk\delta{k}δk：

FDEConv(X)=∑k=1KδkWk⋅X \mathcal{F}{DEConv}(\mathbf{X})=\sum{k=1}^{K}\delta_{k}\mathbf{W}_{k}\cdot\mathbf{X} FDEConv(X)=k=1∑KδkWk⋅X

b) 高效 Ghost 块：为了解决 DEConv 引入的计算开销，ESFC 集成了受 Ghost 卷积原理 $38$ 启发的高效 Ghost 块（EGBlock），它提供了一种减少冗余的更高效替代方案。

Fprimary=Φ(Wprimary⋅X)Fgbst=Φ(Wcheap⋅Fprimary)FEGBlock(X)=Concat(Fprimary,Fghost) \begin{aligned}\mathbf{F}{primary}&=\Phi(\mathbf{W}{primary}\cdot\mathbf{X})\\\mathbf{F}{gbst}&=\Phi(\mathbf{W}{cheap}\cdot\mathbf{F}{primary})\\\mathcal{F}{EGBlock}(\mathbf{X})&=Concat(\mathbf{F}{primary},\mathbf{F}{ghost})\end{aligned} FprimaryFgbstFEGBlock(X)=Φ(Wprimary⋅X)=Φ(Wcheap⋅Fprimary)=Concat(Fprimary,Fghost)

其中 Wprimary\mathbf{W}{primary}Wprimary 是具有减少通道数的标准卷积，Wcheap\mathbf{W}{cheap}Wcheap 是参数高效的深度卷积，Φ\PhiΦ 代表激活函数。这种设计在保持特征表示能力的同时显著降低了计算复杂度。

此外，我们 Incorporate 了一个由 NNN 个 EGBlock 组成的残差路径，如图 2 所示，这确保了鲁棒的特征提取和训练收敛。

c) 双域引导聚合 ：双域引导聚合（DGA）模块实施了一种复杂的引导，在通道和空间域中操作以增强特征判别力。通道引导 Gc\mathbf{G}_{c}Gc 采用基于 ECA-Net $39$ 的自适应核大小策略：

k=ψ(log⁡2(C))=∣log⁡2(C)+bγ∣oddGc(X)=Wk⋅AvgPool(X) \begin{aligned}k=\psi(\log_{2}(C))=\left|\frac{\log_{2}(C)+b}{\gamma}\right|{odd}\\\mathbf{G}{c}(\mathbf{X})=\mathbf{W}_{k}\cdot AvgPool(\mathbf{X})\end{aligned} k=ψ(log2(C))= γlog2(C)+b oddGc(X)=Wk⋅AvgPool(X)

其中 CCC 是通道数，bbb 和 γ\gammaγ 是超参数，∣⋅∣odd|\cdot|_{\mathrm{odd}}∣⋅∣odd 确保奇数核大小以进行适当的填充。这种自适应机制确保了不同通道维度的最佳感受野覆盖。

空间引导 Gs\mathbf{G}_{s}Gs 使用轻量级实现，聚合平均池化和最大池化特征：

Gs(X)=σ(Ws⋅Concat⁡(AvgPool⁡(X),MaxPool⁡(X))) \mathbf{G}{s}(\mathbf{X})=\sigma(\mathbf{W}{s}\cdot\operatorname{Concat}(\operatorname{AvgPool}(\mathbf{X}),\operatorname{MaxPool}(\mathbf{X}))) Gs(X)=σ(Ws⋅Concat(AvgPool(X),MaxPool(X)))

其中 σ\sigmaσ 表示 Sigmoid 激活，Ws\mathbf{W}_{s}Ws 是单个卷积层。它在最小化计算开销的同时保持了空间注意力的有效性。DGA 通过级联通道和空间引导来增强特征：

FDGA(X)=Gs(Gc(X)) \mathcal{F}{DGA}(\mathbf{X})=\mathbf{G}{s}(\mathbf{G}_{c}(\mathbf{X})) FDGA(X)=Gs(Gc(X))

C. 细粒度特征保留

无人机拍摄的航空图像通常包含许多仅占据几个像素的小尺度物体，它们很容易被背景杂乱所掩盖。直观地说，小目标的成功检测高度依赖于骨干网络早期阶段捕获的更细粒度、高分辨率的特征。虽然更深层编码了更强的语义线索，但降低的空间分辨率往往导致丢失对小目标定位至关重要的精细细节。

为了解决这个问题，我们通过集成低级特征图 S1\mathbf{S}{1}S1 和 S2\mathbf{S}{2}S2 来细化 RT-DETR 框架内的 HybridEncoder $10$ ，从而保留细粒度的空间细节。对于解码器，我们特意排除了粗糙的高级语义特征图 F5\mathbf{F}{5}F5，转而强调使用 F2,F3\mathbf{F}{2},\mathbf{F}{3}F2,F3 和 F4\mathbf{F}{4}F4。这种设计优先考虑保持对小目标检测至关重要的空间细节的高分辨率特征，同时减少语义冗余并提高计算效率。

IV. 实验

A. 实施细节

为了评估我们方法的有效性，我们在两个公共无人机基准测试上进行了实验：VisDrone $49$ 和 CODrone $50$ 。遵循之前的工作，所有模型都在验证集上进行评估以确保公平比较。实验在两个 RTX 4090 GPU 上进行。模型使用 AdamW 优化器训练 300 个 epoch，批量大小为 8，初始学习率为 1×10−41\times10^{-4}1×10−4，动量为 0.9。我们使用标准 COCO 评估指标评估模型性能，包括 AP\mathbf{AP}AP、AP50\mathbf{AP}{50}AP50 和 AP75\mathbf{AP}{75}AP75，以及 APs,APm,\mathbf{AP}{s},\mathbf{AP}{m},APs,APm, 和 APl\mathbf{AP}_{l}APl，这些指标测量不同 IoU 阈值和目标尺度下的平均精度。输入图像统一调整为 640×640640\times640640×640 像素。推理延迟使用 TensorRT 在单个 RTX 4090 GPU 上以 FP16 精度进行基准测试。

B. 与无人机数据集上的 SOTA 比较

除非另有说明，所有 YOLO 系列基线均使用其官方超参数和训练方案进行训练，而所有 DETR 系列基线均在与我们相同的单一统一超参数配置下重新训练。标注有 "†" 的结果直接引用自原始论文或官方仓库，未经过重新训练。注意，下标 "∗*∗" 表示使用大于 640×640640\times640640×640 的输入分辨率训练的模型。

a) VisDrone 上的比较结果 ：表 I 展示了提出的 EFSI-DETR 与 VisDrone 数据集上近期最先进目标检测器的全面比较。EFSI-DETR 取得了领先的 33.1% AP，优于所有比较方法。特别是，它超越了最强的 YOLO 系列模型 YOLOv12-X $15$ ，AP 提高了 5.0%，并在 AP50\mathrm{AP_{50}}AP50 上展示了 7.0% 的显著提升。这种优势在小目标上尤为明显，EFSI-DETR 实现了 24.8% 的 APs\mathrm{AP}_{s}APs，显著高于 YOLOv12-X 获得的 17.9%。这种改进对于小目标频繁的基于无人机的检测至关重要。

与专门为小目标检测设计的检测器（如 RemDet-L $46$ ）相比，提出的方法也展示了卓越的性能和效率。EFSI-DETR 将 APs\mathrm{AP}{s}APs 提高了 6.1%，同时在 AP 和 AP50\mathrm{AP{50}}AP50 上分别获得了 3.8% 和 5.3% 的提升。此外，EFSI-DETR 提供了更快的推理速度，延迟为 5.3ms，而 RemDet-L 为 7.1ms，并且仅使用了 77.3% 的参数量（27.3M 对比 35.3M）。

与近期基于 DETR 的模型的额外比较进一步突出了所提出设计的有效性。EFSI-DETR 在 AP 和 AP50\mathrm{AP_{50}}AP50 上分别超越 DEIM-RT-DETR-R50 $48$ 4.9% 和 5.0%，在 APs\mathrm{AP}_{s}APs 上超出 5.8%，展示了小目标检测方面的实质性改进。EFSI-DETR 仅使用了 DEIM-RT-DETR-R50 65.0% 的参数量，实现了具有竞争力的效率，并在大多数关键指标上表现更优。

虽然我们的方法在大目标上的表现相对有限（可能是由于参数高效架构在捕获细粒度细节时固有的表示约束），但这种权衡是完全合理的。所提出的设计在保持实时推理速度的同时，实现了小目标检测精度的实质性提升，这与基于无人机的目标检测场景的核心需求紧密一致。在未来的工作中，我们计划进一步研究自适应多尺度融合机制，以缓解大目标上的性能下降，旨在在不牺牲效率的情况下实现不同目标尺度间更平衡的检测性能。

b) CODrone 上的比较结果 ：表 II 展示了在 CODrone 数据集上的评估结果，我们的 EFSI-DETR 在关键指标上取得了卓越的性能。与 YOLO 系列方法相比，EFSI-DETR 获得了 20.2% 的 AP，超越 YOLOv12-X 3.0%，超越 YOLO11-X $19$ 2.6%。在 AP50\mathrm{AP_{50}}AP50 上的改进更为明显，EFSI-DETR 达到 38.4%，优于分别达到 32.7% 和 33.1% 的 YOLOv12-X 和 YOLO11-X。对于小目标检测，EFSI-DETR 表现出一致的改进，APs\mathrm{AP}_{s}APs 为 4.3%，超越 YOLOv12-X 2.8%，超越 YOLO11-X 2.7%。

与基于 DETR 的方法相比，EFSI-DETR 同样表现出值得注意的优势。我们的方法在 AP 和 AP50\mathrm{AP_{50}}AP50 上分别超越 RT-DETR-R50 2.4% 和 3.9%，同时在 AP 和 AP50\mathrm{AP_{50}}AP50 上分别超越 DEIM-RT-DETR-R50 3.0% 和 4.8%。小目标检测的改进尤为显著，EFSI-DETR 在 APs\mathrm{AP}_{s}APs 上分别比 RT-DETR-R50 和 DEIM-RT-DETR-R50 高出 1.4% 和 1.7%。图 3 展示了检测结果的比较可视化。这些结果进一步证实了所提出方法的有效性，展示了其在广泛无人机目标检测场景中的鲁棒泛化能力。

C. 消融实验

为了验证 EfSIDETR 中核心模块设计的有效性，我们在 VisDrone 数据集上设计了一系列消融实验。在所有消融实验中，我们使用 RT-DETR-R18 (ϵ=1\epsilon=1ϵ=1) 作为基线模型，其中 ϵ\epsilonϵ 表示融合阶段通道的表达比例。

a) 关键组件的效果 ：表 III 中的实验结果验证了每个提出组件的有效性。具体而言，引入 FFR 策略显著增强了空间细节保留，导致 AP、AP50\mathrm{AP_{50}}AP50 和 APs\mathrm{AP}{s}APs 分别提升了 4.4%、6.1% 和 4.9%。 incorporation 了集成频率感知分解与空间多尺度处理的 DyFusNet，进一步改善了特征表示，导致 AP、AP50\mathrm{AP{50}}AP50 和 APs\mathrm{AP}{s}APs 分别额外提升了 1.4%、1.7% 和 1.4%。此外，ESFC 模块增强了特征的语义质量，在 AP、AP50\mathrm{AP{50}}AP50 和 APs\mathrm{AP}_{s}APs 上提供了 0.4%、0.4% 和 0.2% 的增量改进，同时将参数量减少了 1.5M。总的来说，这些结果证明了所提出组件的有效性和效率，它们在保持实时能力的同时显著增强了检测性能。图 4 中的定性比较进一步支持了这些发现。

b) 专家数量的效果 ：我们对 ESFC 模块中的专家数量进行了消融研究，结果如表 IV 所示。实验表明，3 个专家在性能和计算效率之间取得了最佳平衡，以微小的参数增加产生了最高的 33.1% AP 和 52.7% AP50\mathrm{AP_{50}}AP50。使用较少的专家（2 个）导致特征多样性不足，导致 AP 下降 0.5%，而更多的专家（4-5 个）引入了冗余而没有性能增益，并增加了计算开销。这验证了我们选择 3 个专家作为自适应特征提取的最佳点的设计，在保持参数效率的同时提供了足够的表示能力。

c) ESFC 在不同融合阶段的效果 ：如表 V 所示，在 Deep 阶段应用 ESFC 产生了最佳性能，实现了 33.1% 的 AP 和 52.7% 的 AP50\mathrm{AP_{50}}AP50，分别超越 Shallow 阶段 1.8% 和 2.1%。虽然 Middle 阶段在小目标检测上展示了最高的精度 (APs=24.9%\mathrm{AP_s}=24.9\%APs=24.9%)，但 Deep 阶段仍取得了可比的结果 (24.8%)，同时提供了更优越的整体精度。M&D 配置提供了一个参数高效的折衷方案，仅需 25.9M 参数，尽管 AP 略微降低至 32.3%。这表明 ESFC 在更深层应用时最有效，因为它能更好地利用语义特征表示。

d) FFR 设计的效果 ：如表 VI 所示，我们基于基线对不同 FFR 设计进行了消融研究。结果表明，FFR 通过消除高级语义特征 F5\mathbf{F}_{5}F5 来减轻语义信息冗余，从而增强了性能和效率。

V. 结论

在这项工作中，我们提出了 EFSI-DETR，这是一种新颖的检测框架，集成了高效的语义特征增强与动态频域 - 空间引导，专为具有挑战性的航空场景量身定制。具体而言，我们设计了两个核心模块：1) DyFusNet，联合利用频率和空间线索进行鲁棒的多尺度特征学习。2) ESFC，促进高效的语义特征集中。此外，采用了 FFR 策略以保留细粒度的空间信息。大量实验表明，我们的 EFSI-DETR 在保持高速推理的同时获得了卓越的性能，特别是在检测小而密集分布的目标方面表现出色。

致谢

本工作得到了深圳市科技计划（项目编号 JCYJ20240813111301003, JCYJ20230807090103008）和广东省基础与应用基础研究基金（项目编号 2024A1515010456）的支持。数值计算由武汉大学超级计算中心的超级计算机系统支持。

参考文献

$1$ - $50$ (此处省略具体参考文献列表，原文中包含详细引用)

(注：文中图表及图片已根据原文描述保留位置标记，实际翻译中图片内容未做文字化处理，仅翻译了图注。)