学习嵌入位置:面向小目标检测查询检索的噪声感知位置编码

作者 : Yangchen Zeng, Zhenyu Yu, Dongming Jiang, Wenbo Zhang, Yifan Hong, Zhanhua Hu, Jiao Luo, Kangning Cui*
单位: 东南大学、复旦大学、德克萨斯大学达拉斯分校、浙江师范大学、合肥综合性国家科学中心数据空间研究院、莱斯大学、华中农业大学、香港城市大学(东莞)、维克森林大学

摘要

基于Transformer的检测器推动了小目标检测的发展,但它们通常效率较低且容易受到背景引起的查询噪声干扰,这往往需要深层解码器反复优化低质量查询。本文提出 HELP (热力图引导的嵌入学习范式),这是一种噪声感知的位置-语义融合框架,旨在研究"在哪里嵌入位置信息":通过选择性保留前景显著区域的位置编码,同时抑制背景杂波。在HELP中,我们引入 HPE (热力图引导位置嵌入)作为核心嵌入机制,并使用热力条(heatbar)对其进行可视化,以实现可解释的诊断与微调。HPE同时集成于编码器与解码器:它通过注入热力图感知的位置编码引导噪声抑制的特征编码,并在解码前通过基于梯度的掩码滤波器过滤背景主导的嵌入,从而实现高质量的查询检索。针对复杂小目标中的特征稀疏性问题,我们集成 LSConv (线性-蛇形卷积)以丰富检索相关表示。基于梯度的热力图监督仅在训练阶段使用,推理时不产生额外梯度计算开销。因此,该设计将解码器层数从8层降至3层,参数量减少 59.4%59.4\%59.4%(66.3M66.3\text{M}66.3M vs 163M163\text{M}163M),同时在多个基准测试中以更低的计算预算保持了稳定的精度提升。

代码仓库:https://github.com/yidimopozhibai/Noise-Suppressed-Query-Retrieval


1 引言

小目标检测仍是计算机视觉中一项极具挑战性的基础任务,尤其在航空与遥感图像中,目标仅占据少量像素且极易被杂乱背景遮挡。此类场景通常伴随极端的尺度变化、密集的目标布局以及大面积背景,严重损害定位与识别性能[1-6]。大规模航拍场景对可靠检测的日益增长需求,进一步凸显了跨不同成像条件与目标密度具备强泛化能力的方法的重要性[7-10]。

基于Transformer的检测器因其全局上下文建模与基于集合(set-based)的预测目标,减少了对密集候选框与启发式后处理的依赖,在小目标检测中受到广泛关注[11-14]。然而,它们在杂乱航拍场景中的性能往往受限于用于解码的查询质量。具体而言,许多查询生成流程未能充分利用现成的检测线索(如空间位置、类别置信度与边界框回归信号),尤其在训练数据受限时更为明显。这导致位置编码与检测语义之间的对齐较弱,因为位置信息并未在真正对小目标定位具有判别力的区域被选择性强化[15-17]。

第二个局限在于:当背景占比极高时,查询极易被背景响应污染。低质量背景区域仍会引入非平凡嵌入,但多数检测器缺乏在解码前显式抑制此类背景诱导查询噪声的机制,从而拉低定位与分类性能[12,16,18-20]。这也引发效率瓶颈:解码器通常需多层反复纠正次优查询,随着注意力复杂度随标记长度与解码器深度增长,训练与推理成本显著上升[11,21]。小目标检测进一步加剧该问题,因为有效特征极为稀疏且细粒度。若无专门的特征工程增强稀疏判别模式,支撑查询检索的表示在杂乱场景中依然脆弱,限制了模型的鲁棒性与泛化能力[1,22,23]。

为应对上述挑战,我们提出 HELP (热力图引导的嵌入学习范式),一种高效的位置与语义融合框架,用于学习"在哪里嵌入位置信息"。HELP摒弃在所有空间位置均匀注入位置编码的做法,转而采用热力图引导的自适应学习,选择性保留前景显著区域的位置编码,并抑制背景主导区域的位置编码。借此,HELP将位置线索与类别及边界框信息耦合,提升用于查询解码的表示质量,并增强对背景噪声的鲁棒性。在HELP内部,我们引入 HPE(热力图引导位置嵌入)机制,以及基于热力条的HPE可视化,为嵌入分配提供可解释视图与微调指导。

基于HPE,我们开发了 MOHFE (多尺度对象框-热力图融合编码器)与 HQ-Retrieval (高质量查询检索)。MOHFE通过将类别与边界框语义融合至多尺度热力图引导位置嵌入中,执行噪声抑制的特征编码,强化编码器端位置线索与检测语义的对齐。HQ-Retrieval生成判别性查询并过滤低质量背景查询,减少冗余查询,使解码器得以大幅浅化。该设计显著加速训练与推理。针对复杂小目标的特征稀疏性,我们提出 LSConv(线性-蛇形卷积)以捕获稀疏判别模式并优化查询生成。

本文主要贡献如下:

  • 提出带热力条可视化的HPE,用于选择性位置嵌入的可解释分析与微调,实现噪声鲁棒的查询解码。
  • 设计MOHFE与HQ-Retrieval,通过基于梯度的滤波器实现噪声抑制编码与判别性查询检索,将解码器深度从8层降至3层。
  • 集成LSConv增强稀疏特征提取,实现 59.4%59.4\%59.4% 的参数量缩减(66.3M66.3\text{M}66.3M vs 163M163\text{M}163M),同时加速训练与推理。
  • 在5个基准数据集上验证方法,展现稳定的精度增益与良好的可扩展性。

2 相关工作

2.1 基于CNN的小目标检测

基于CNN的检测器长期主导目标检测领域,受益于分层特征提取与多尺度表示[24,25]。代表性单阶段方法[26-31]侧重效率,双阶段方法[32,33]利用区域提议机制提升定位精度。这些设计已扩展至航空与遥感图像,其中小目标常见且多尺度线索至关重要[34,35]。例如,SuperYOLO[36]通过超分辨率增强小目标表示,PCNet[37]通过对比特征学习提升判别力。尽管性能强劲,多数CNN流水线依赖密集候选生成与随后的非极大值抑制(NMS)后处理[38]。NMS引入阈值与贪心选择,对场景统计敏感且可能削弱跨数据集泛化能力[39,40,32,34]。此外,密集候选处理在高分辨率航拍图像中会产生大量冗余,大量小目标与广阔背景显著增加训练与推理成本。

2.2 基于Transformer的小目标检测

采用Transformer主干的检测器(DETR类)提供了替代方案,通过集合预测目标与查询驱动解码,以全局上下文建模取代NMS[41]。DETR框架及其变体[42,15,12,11]通常结合卷积主干提取特征、Transformer编码器聚合上下文、可学习查询进行并行解码。同时,面向效率的Transformer设计(如DynamicViT[43])通过动态标记剪枝与分配降低注意力成本。部分工作通过焦点损失结合类别激活图缓解类别不平衡并改善定位,或采用目标相关窗口的稀疏注意力加速检测[44-46]。然而,高分辨率输入上原始自注意力的计算负担依然沉重。现有改进包括窗口注意力[47]、层级或下采样设计[48,49]及低秩近似[50]。互补的稀疏化策略也应用于标记、注意力头与Transformer块层级[43,51,52]。尽管这些方法降低了计算量,但可能削弱细粒度定位能力,或为密集分布的小目标引入额外的优化复杂度。


3 热力图引导的嵌入学习

本节详细介绍 HELP (热力图引导的嵌入学习范式)。首先介绍核心嵌入机制 HPE (热力图引导位置嵌入),其基于热力图显著性学习保留或抑制位置信息的位置。随后说明HPE如何在编码器与解码器中协同实现噪声抑制特征编码与高质量查询检索。最后介绍 LSConv (线性-蛇形卷积)作为补充模块,用于丰富复杂小目标场景下与检索相关的稀疏表示。

3.1 热力图引导位置嵌入(HPE)

在HELP框架中,我们引入HPE作为噪声抑制查询检索的核心嵌入机制。如图1所示,HPE通过以下步骤学习"在哪里嵌入位置信息":在前景显著区域保留位置线索,在背景主导区域抑制位置线索。

步骤1. 提取中间特征张量 A∈RK×H×WA \in \mathbb{R}^{K \times H \times W}A∈RK×H×W,其中 Ak(i,j)A_k(i, j)Ak(i,j) 表示第 kkk 个通道在空间坐标 (i,j)(i, j)(i,j) 处的激活值。对于检测类别 ccc,梯度权重系数 αijkc\alpha_{ijk}^cαijkc 通过计算分类置信度 ycy^cyc 对 AAA 的二阶与三阶偏导数得到:
αijkc=∂2yc∂Ak(i,j)2+∂3yc∂Ak(i,j)3(1)\alpha_{ijk}^c = \frac{\partial^2 y^c}{\partial A_k(i, j)^2} + \frac{\partial^3 y^c}{\partial A_k(i, j)^3} \quad (1)αijkc=∂Ak(i,j)2∂2yc+∂Ak(i,j)3∂3yc(1)

通道重要性权重 βkc\beta_k^cβkc 通过空间聚合与基于ReLU的梯度过滤计算:
βkc=∑i=1H∑j=1Wαijkc⋅ReLU(∂yc∂Ak(i,j))(2)\beta_k^c = \sum_{i=1}^{H} \sum_{j=1}^{W} \alpha_{ijk}^c \cdot \text{ReLU}\left( \frac{\partial y^c}{\partial A_k(i, j)} \right) \quad (2)βkc=i=1∑Hj=1∑Wαijkc⋅ReLU(∂Ak(i,j)∂yc)(2)

此处,ReLU抑制负梯度以仅保留与类别 ccc 正相关的激活,而 αijkc\alpha_{ijk}^cαijkc 放大对判别具有更高阶非线性贡献的区域。

步骤2. 利用通道重要性权重 βkc\beta_k^cβkc,计算类别判别热力图:
Hclass(i,j)=ReLU(∑k=1Kβkc⋅Ak(i,j))(3)H_{\text{class}}(i, j) = \text{ReLU}\left( \sum_{k=1}^{K} \beta_k^c \cdot A_k(i, j) \right) \quad (3)Hclass(i,j)=ReLU(k=1∑Kβkc⋅Ak(i,j))(3)

类似于 HclassH_{\text{class}}Hclass,将分类置信度 ycy^cyc 替换为边界框回归损失 LregL_{\text{reg}}Lreg,并通过Huber损失计算激活权重,经梯度反向传播得到几何感知热力图 HbboxH_{\text{bbox}}Hbbox。最终,将语义与几何信息融合为混合热力图:
Hmixed=λ⋅Hclass+(1−λ)⋅Hbbox(4)H_{\text{mixed}} = \lambda \cdot H_{\text{class}} + (1 - \lambda) \cdot H_{\text{bbox}} \quad (4)Hmixed=λ⋅Hclass+(1−λ)⋅Hbbox(4)

步骤3. 引入动态掩码机制,将热力图转换为二值空间掩码,并用其调制位置编码。具体而言,热力图响应较低的位置(Hmap≤τH_{\text{map}} \leq \tauHmap≤τ)被视为背景主导区域,其位置编码被抑制;响应较高的位置(Hmap>τH_{\text{map}} > \tauHmap>τ)保留位置线索以实现准确的几何对应。掩码调制后的位置编码随后注入编码器-解码器流水线,减少背景引起的位置杂波,提升杂乱场景中的查询检索质量。通过阈值化热力图形式化掩码滤波器:
Mask(i,j)={1,Hmap(i,j)>τ0,otherwise(5)\text{Mask}(i, j) = \begin{cases} 1, & H_{\text{map}}(i, j) > \tau \\ 0, & \text{otherwise} \end{cases} \quad (5)Mask(i,j)={1,0,Hmap(i,j)>τotherwise(5)

并用其调制标准正弦位置编码:
PE(i,j,d)=Mask(i,j)⊙[sin⁡(iτd)+cos⁡(jτd)](6)\text{PE}(i, j, d) = \text{Mask}(i, j) \odot \left[ \sin\left( \frac{i}{\tau_d} \right) + \cos\left( \frac{j}{\tau_d} \right) \right] \quad (6)PE(i,j,d)=Mask(i,j)⊙[sin(τdi)+cos(τdj)](6)

其中 τd=100002d/D\tau_d = 10000^{2d/D}τd=100002d/D,⊙\odot⊙ 表示逐元素相乘。

基于梯度的热力图生成(含公式(1)-(2)中的二阶与三阶导数)仅在训练期间使用。训练时,HclassH_{\text{class}}Hclass 与 HbboxH_{\text{bbox}}Hbbox 通过带真实标签监督的反向传播计算。收敛后,模型在其参数中内化所学的热力图驱动嵌入行为。推理时,检测器以标准前向传播运行,无需任何梯度计算,因此不产生传统Transformer推理之外的额外运行时开销。该设计确保高阶导数的计算成本不影响部署效率。

HPE利用热力图控制位置信息:背景主导区域的位置编码被抑制,前景显著区域被保留。如图2所示,热力条可视化突出了该选择性嵌入模式,热区集中于检测相关区域,冷区对应被抑制的背景区域。该选择性嵌入减少了背景引起的位置噪声,促使位置信息与检测语义更好对齐。

我们采用硬二值化而非软门控(如sigmoid)以强制执行清晰的前景/背景分离。航拍图像中目标通常稀疏且背景广阔;软掩码可能在背景区域残留位置信号。二值掩码因此提供更直接有效的背景位置杂波抑制。图3总结了掩码位置嵌入如何被编码器与解码器用于查询检索。

3.2 热力图引导的编码与检索

本节阐述所提框架如何将学习到的位置编码转化为:(i) 与检测语义更好对齐的编码器特征;(ii) 用于最终预测的更具判别性的解码器查询。我们通过两个组件实现:MOHFE(将热力图信息融合至多尺度编码并生成编码器键/值),以及HQ-Retrieval(将混合热力图嵌入转换为紧凑解码器查询集,输入可变形注意力解码)。

3.2.1 MOHFE:多尺度对象框-热力图融合编码器

MOHFE是编码器端融合模块,将热力图导出的位置编码转化为可用于解码器检索的编码器特征。其输入包含两个热力图条件嵌入:类别驱动嵌入 EclassE_{\text{class}}Eclass 与框驱动嵌入 EbboxE_{\text{bbox}}Ebbox。直观上,EclassE_{\text{class}}Eclass 强调类别判别区域,EbboxE_{\text{bbox}}Ebbox 强调几何相关区域;MOHFE将其结合,使编码器特征空间同时携带语义与定位线索。

具体而言,首先投影这两个嵌入并拼接为统一表示 [Eclass∥Ebbox][E_{\text{class}} \| E_{\text{bbox}}][Eclass∥Ebbox]。随后使用独立线性层为编码器多头自注意力构建Query/Key/Value张量:
Qenc=WQ[Eclass∥Ebbox],Kenc=WK[Eclass∥Ebbox],Venc=WV[Eclass∥Ebbox](7)Q_{\text{enc}} = W_Q [E_{\text{class}} \| E_{\text{bbox}}], \quad K_{\text{enc}} = W_K [E_{\text{class}} \| E_{\text{bbox}}], \quad V_{\text{enc}} = W_V [E_{\text{class}} \| E_{\text{bbox}}] \quad (7)Qenc=WQ[Eclass∥Ebbox],Kenc=WK[Eclass∥Ebbox],Venc=WV[Eclass∥Ebbox](7)

在这些热力图条件特征上执行编码器注意力,生成的表示中前景显著位置对下游解码更具信息量。构建编码器输入时,使用公式(5)定义的掩码位置编码,使背景主导位置贡献较少的位置信号。因此,编码器输出(Kenc,VencK_{\text{enc}}, V_{\text{enc}}Kenc,Venc)为下文所述的解码器端查询检索模块提供更清晰的记忆。

3.2.2 HQ-Retrieval:用于解码的热力图诱导高质量查询检索

HQ-Retrieval是解码器端模块,将来自混合热力图 HmixedH_{\text{mixed}}Hmixed 的热力图条件嵌入转换为紧凑的判别性解码器查询集。直观上,HmixedH_{\text{mixed}}Hmixed 突出显示同时与类别相关且几何一致的位置;以其作为查询源可避免从背景主导嵌入进行解码。

具体而言,首先应用线性投影获得初始查询向量:QDeNoise=WQ′EmixedQ_{\text{DeNoise}} = W'Q E{\text{mixed}}QDeNoise=WQ′Emixed。这些查询随后通过可变形注意力关注编码器记忆:
DeformAttn(QDeNoise,Kenc,Venc)(8)\text{DeformAttn}(Q_{\text{DeNoise}}, K_{\text{enc}}, V_{\text{enc}}) \quad (8)DeformAttn(QDeNoise,Kenc,Venc)(8)

由于 QDeNoiseQ_{\text{DeNoise}}QDeNoise 源自编码了语义与位置的热力图引导嵌入,其在解码前优先关注前景显著位置并抑制背景驱动响应。这产生更清晰的查询-记忆交互,提升定位与分类性能,同时降低对深层解码器反复优化噪声查询的依赖。

3.3 线性-蛇形卷积(LSConv)

小目标检测常面临极端特征稀疏性:有用证据可能呈现为细长、碎片化的响应,单一固定感受野极易错过这些微弱但有结构的线索。为在解码前增强检索相关表示,我们引入LSConv,一种轻量级算子,通过几何感知采样丰富局部特征,同时保持采样行为稳定。给定输入特征图,LSConv输出同分辨率的增强特征图,为后续热力图对齐的查询检索提供更强基础。

如图4所示,LSConv采用双路径设计:(i) 蛇形分支,使用可学习偏移跟随不规则或曲线结构;(ii) 线性分支,使用受限采样强制执行直线连续性。该互补性使LSConv能同时捕获"非刚性"局部证据(对微小、杂乱目标有用)与"刚性"线性上下文(对一致结构有用),从而为后续查询检索生成更密集可靠的特征。

LSConv使用小型卷积预测器预测变形偏移 Δ\DeltaΔ。为避免感受野不稳定漂移,通过连续性正则化约束偏移,使相邻采样位置平滑变化,防止过度变形损害对齐。为清晰起见,考虑在 9×99 \times 99×9 邻域上操作的 3×33 \times 33×3 核。沿水平方向,LSConv使用 3×13 \times 13×1 条带聚合特征,同时保持正交方向稳定;变形采样坐标为:
Xi±c={(xi+c+1,yi+c+1)=(xi+c+1,yi+∑Δyi+c+1),(xi−c−1,yi−c−1)=(xi−c−1,yi+∑Δyi−c−1)}(9)X_{i \pm c} = \left\{ (x_{i+c+1}, y_{i+c+1}) = \left(x_{i+c+1}, y_i + \sum \Delta y_{i+c+1}\right), (x_{i-c-1}, y_{i-c-1}) = \left(x_{i-c-1}, y_i + \sum \Delta y_{i-c-1}\right) \right\} \quad (9)Xi±c={(xi+c+1,yi+c+1)=(xi+c+1,yi+∑Δyi+c+1),(xi−c−1,yi−c−1)=(xi−c−1,yi+∑Δyi−c−1)}(9)

其中 c∈{0,1,2,3,4}c \in \{0, 1, 2, 3, 4\}c∈{0,1,2,3,4} 索引到中心的距离(图4右)。通过双线性插值在这些(通常为分数)位置采样特征值,保持LSConv的可微性与稳定性。

垂直方向定义类似(图4右):
Yj±c={(xj+c+1,yj+c+1)=(xj+∑Δxj+c+1,yj+c+1),(xj−c−1,yj−c−1)=(xj+∑Δxj−c−1,yj−c−1)}(10)Y_{j \pm c} = \left\{ (x_{j+c+1}, y_{j+c+1}) = \left(x_j + \sum \Delta x_{j+c+1}, y_{j+c+1}\right), (x_{j-c-1}, y_{j-c-1}) = \left(x_j + \sum \Delta x_{j-c-1}, y_{j-c-1}\right) \right\} \quad (10)Yj±c={(xj+c+1,yj+c+1)=(xj+∑Δxj+c+1,yj+c+1),(xj−c−1,yj−c−1)=(xj+∑Δxj−c−1,yj−c−1)}(10)

当证据碎片化或弯曲时(如杂乱下的小目标),蛇形分支占主导,灵活偏移可"追踪"局部响应并恢复缺失上下文。当场景含稳定直线结构时,线性分支占主导,受限采样保留一致几何并避免过度变形。图5进一步对比LSConv与标准、空洞、可变形及DSC算子:LSConv显式耦合受限线性采样器与可变形蛇形采样器,而非依赖单一采样规则。实践中,将LSConv插入主干网络,在特征传入后续HPE驱动编码与查询检索模块前进行增强。总体而言,LSConv提供了一种简单有效的方法来密集化稀疏信息并提升几何一致性,使特征更适配小目标场景中的热力图对齐查询检索。


4 实验结果与分析

4.1 数据集与实验协议

我们在5个公共基准数据集上评估方法,涵盖通用与航空目标检测:NWPU VHR-10[55](含小目标与密集目标的航拍图像)、PASCAL VOC[56](通用目标检测),以及3个大规模航空数据集(DOTA、DIOR、VisDrone)[57-60],以评估跨数据类型与场景复杂度的可扩展性。

所有数据集均遵循官方训练/测试划分,并严格采用文献[11]的评估协议。除非特别说明,跨数据集超参数保持一致。特别地,公式(4)中设 λ=0.5\lambda = 0.5λ=0.5 以平衡语义与几何先验,公式(5)中设 τ=0.5\tau = 0.5τ=0.5 对热力图进行二值化以用于后续查询检索。λ\lambdaλ 与 τ\tauτ 均在验证集上选定后固定于所有基准。报告检测精度指标 mAP@50mAP@50mAP@50 与 mAPmAPmAP,并使用 GFLOPs 与 Params(M) 衡量计算成本与模型规模。

4.2 结果分析

4.2.1 定量结果

与代表性CNN检测器(FCOS、RetinaNet、Faster R-CNN、CenterNet、MobileNet-V3及YOLO系列)对比,并与最先进的Transformer检测器(DETR、Deformable DETR、PR-Deformable DETR*、RT-DETR)对比,以 benchmark 最相关的编码器-解码器范式。CNN基线采用标准化超参数训练,Transformer基线配置与实验设置及常用训练计划匹配。

表1汇总了PASCAL VOC与NWPU VHR-10的结果。CNN检测器通常在较短调度内收敛(如75轮),而Transformer检测器常需更长训练(100-125轮)以稳定优化并达到竞争性能。该现象在NWPU VHR-10上尤为明显,小目标与有限训练数据使Transformer的查询学习更具挑战(如DETR仅得 35.9%35.9\%35.9% mAP)。

我们的方法在NWPU VHR-10上取得 94.51%94.51\%94.51% mAP@0.5 与 67.20%67.20\%67.20% mAP。相比最强实时Transformer基线RT-DETR,精度与效率双提升:+1.91+1.91+1.91 mAP@0.5 与 +6.94+6.94+6.94 mAP,计算量从 136136136 降至 575757 GFLOPs,参数量从 163M163\text{M}163M 降至 66.3M66.3\text{M}66.3M(减少 59.4%59.4\%59.4%)。结果表明,热力图引导位置编码有效稳定了编码器-解码器检测中的高质量查询检索,在小目标与稀疏数据 regime 下实现了更优的精度-效率权衡。

4.2.2 定性可视化

图6展示了PASCAL VOC与NWPU VHR-10上HPE去噪查询检索的可视化结果。奇数行为输入图像,偶数行为原分辨率上叠加的HPE热力条。这些示例一致呈现"热中心、冷边缘"轮廓,印证了HPE的核心设计:注入强调目标相关区域的位置信息,同时抑制背景响应,从而在初始化阶段减少噪声查询提议。此外,可视化表明HPE并非简单的显著性高亮,而是诱导了一种结构化空间先验,偏好紧凑、单峰激活与更锐利的空间对比。该特性与高IoU评估高度契合,因其在杂乱场景或尺度变化下促进更稳定的查询锚定与更紧致的定位。

4.3 消融研究与额外评估

4.3.1 组件级消融

表2报告了框架在NWPU VHR-10与PASCAL VOC上的组件级消融。总体而言,逐步启用模块在两数据集上均带来稳定提升,完整配置始终取得最佳性能,表明所提组件贡献互补增益而非冗余修改。

  • NWPU VHR-10 : 基线模型取得 92.6%92.6\%92.6% mAP@0.5 与 60.2%60.2\%60.2% mAP。添加DSConv带来适度但一致的增益(+0.11+0.11+0.11 mAP@0.5 与 +2.12+2.12+2.12 mAP),表明小目标与密集分布目标的特征稳定性提升。引入Linear-Snake进一步增强几何建模,性能提升至 93.91%93.91\%93.91% mAP@0.5 与 63.69%63.69\%63.69% mAP,表明对目标边界与形状信息的敏感度提升。启用MOHFE后,mAP@0.5增至 94.18%94.18\%94.18%,mAP增至 63.94%63.94\%63.94%,验证了热力图引导位置编码提供更干净的空间先验。最终集成HQ-Retrieval带来最显著提升,mAP@0.5达 94.51%94.51\%94.51%,mAP达 67.20%67.20\%67.20%(较基线 +6.9+6.9+6.9)。值得注意的是,mAP的提升远大于mAP@0.5,证实这些组件主要通过将解码器查询优化至几何一致区域来改善高IoU定位质量。
  • PASCAL VOC : 呈现类似趋势。完整模型将mAP@0.5从 69.4%69.4\%69.4% 提升至 70.6%70.6\%70.6%,mAP从 50.5%50.5\%50.5% 提升至 51.6%51.6\%51.6%。尽管绝对增益小于NWPU VHR-10,但两项指标的一致提升表明这些组件泛化至通用目标检测场景。
4.3.2 DETR解码器深度消融

表3分析了DETR类架构在不同训练 regime 下解码器深度的影响。所有配置均采用相同的HPE驱动查询增强,仅改变用于检测的解码器层数。当训练充足(100轮)时,Det2已达峰值性能(70.5%70.5\%70.5% AP),更深配置(Det3-7)无进一步改善,表明性能已饱和。在有限训练预算下,更深解码器仍有益处:25轮与early-stop regime下,Det3-7始终优于浅层变体。此处"early-stop"指训练动态稳定后即终止的设置(<10<10<10轮)。

结果表明,HPE提升了查询质量,从而降低对深层解码器堆栈的依赖。实践中,充分监督下2层解码器已足够,而在数据稀缺 regime 下3层提供良好权衡。对应GFLOPs增幅温和(53.7→57.053.7 \rightarrow 57.053.7→57.0),反映DETR类架构以编码器计算为主导的模式;因此,深度缩减在参数量与延迟上的节省通常比原始FLOPs更显著。最后,编码器-解码器参数划分(3.01MB3.01\text{MB}3.01MB vs 16.8MB16.8\text{MB}16.8MB)表明设计将更多容量分配给查询优化而非特征提取,契合我们通过高质量检索实现精确定位的目标。

4.3.3 基准额外评估

进一步在3个大规模航空检测基准(DOTA、DIOR、VisDrone)上检验方法泛化性,与DETR基线对比。表4显示,我们的方法在所有基准的AP50与AP75上均一致优于DETR。提升分别为DOTA:+6.4/+3.9+6.4/+3.9+6.4/+3.9,DIOR:+7.6/+5.4+7.6/+5.4+7.6/+5.4,VisDrone:+7.5/+4.4+7.5/+4.4+7.5/+4.4(AP50/AP75),表明基于HPE的查询检索机制能可靠迁移至目标密度与尺度分布各异的大规模航空数据集。


5 结论

我们研究了基于查询的小目标检测中一个简单但未被充分探索的问题:在哪里嵌入位置信息 。在杂乱航拍场景中,均匀注入位置编码会使背景主导区域携带干扰信号,降低检索效果,并将优化负担转移至深层解码器进行反复修正。通过使位置编码具备选择性,在前景显著区域保留而在其余区域抑制,我们的方法生成了更清晰、稳定的解码器输入,提升了高IoU定位质量,并降低了对深层解码器堆栈的依赖。这带来了切实的精度与效率收益:解码器可大幅轻量化而不牺牲性能。总体而言,核心启示在于位置编码的应用位置与其存在同等重要,将嵌入分配视为噪声感知分配问题,为实现更高精度与更高效检测提供了一条简洁路径。未来工作包括研究用于位置分配的预测驱动替代方案(替代基于梯度的显著性),并检验选择性位置嵌入如何泛化至其他基于查询的检测架构与数据集。

相关推荐
辞旧 lekkk5 小时前
【Qt】信号和槽
linux·开发语言·数据库·qt·学习·mysql·萌新
youcans_5 小时前
【HALCON机器视觉实战】专栏介绍
图像处理·人工智能·计算机视觉·halcon
火山引擎开发者社区5 小时前
火山引擎 veRoCE 获权威认证:IANA 官方为 veRoCE 分配专属 UDP 端口号 4794
人工智能
飘落的数码折腾日记5 小时前
你的AI Agent可能正在“叛变“ | 5类真实威胁与四层防御
人工智能
放羊郎5 小时前
基于ORB-SLAM2算法的优化工作
人工智能·算法·计算机视觉
AI袋鼠帝6 小时前
字节的技术决心,都藏在这个动作里
人工智能
AI袋鼠帝6 小时前
企微又偷偷进化AI,并开始不对劲了..
人工智能
工业机器人销售服务6 小时前
2026 年,探索专业伯朗特机器人的奇妙世界
人工智能·机器人
摆烂大大王6 小时前
AI 日报|2026年5月9日:四部门力推AI与能源双向赋能,AI终端国标出台,中国大模型融资潮涌
人工智能