白学成1,,王宇翔2,,徐传智2,†,胡伯宇3,韩康1,4,潘瑞杰1,牛晓伟5,关晓天5,付利强5,叶鹏飞6
https://arxiv.org/pdf/2603.05905
摘要
无人机(UAV)图像中的小目标检测面临巨大挑战,主要原因包括尺度变化、结构细节退化以及有限的计算资源。在高空场景中,细粒度特征在分层下采样和跨尺度融合过程中进一步被削弱,导致定位不稳定且鲁棒性下降。为解决这一问题,我们提出了CollabOD------一个轻量级协作检测框架,该框架在多尺度融合前明确保留结构细节并校准异构特征流。该框架整合了结构细节保留、跨路径特征校准和定位感知轻量化设计三大策略。从图像处理、通道结构和轻量化设计的角度出发,它优化了传统无人机感知模型的架构。所提出的设计增强了表征稳定性,同时保持了高效的推理能力。统一的细节感知检测头进一步提升了回归鲁棒性,且不引入额外的部署开销。代码已开源:https://github.com/Bai-Xuecheng/CollabOD。
一、引言
无人机已成为自动驾驶感知的重要平台,广泛应用于城市交通监控[1]、交通流量分析[2]和停车管理[3]等场景。在这些场景中,目标检测通过准确识别和定位航拍图像中的目标,在可靠的交通状态评估中发挥着关键作用。然而,高空作业带来了显著的尺度变化、大量远距离小目标以及有限的机载计算资源,使得轻量级且高精度的检测模型成为迫切需求。
从特征表征的角度来看,通常小于32×3232 \times 3232×32像素的航拍小目标包含极其有限的判别信息。它们的特征在反复下采样过程中迅速退化,导致表征能力弱[4]和低信噪比[2],特别是在低对比度[5]、运动模糊[6]和大气畸变[4]等具有挑战性的航拍条件下。

图1. 传统单流检测与CollabOD的对比。单流方法会削弱结构线索并进行隐式融合,导致空间错位。CollabOD在融合前解耦并校准了结构与细节表征,以提高稳定性和准确性。
在这种情况下,用于区分前景和背景的细粒度结构线索(如目标边界和边缘纹理)变得至关重要,因此需要精确的定位[3],[7]。尽管特征金字塔网络保留了多尺度表征,但其跨尺度融合通常通过简单的加法或拼接实现,缺乏对结构细节衰减和跨层错位的显式建模。
现有方法通过引入辅助分支[3]、[8]、注意力机制[3]或精细的融合策略[6]、[9]来增强表征能力。虽然这些设计有效,但通常会产生具有不同感受野分布和语义偏差的异构特征流。传统融合隐式假设路径间存在空间和语义兼容性,难以显式抑制跨路径差异。对于本身结构和语义表征就有限的小目标,即使轻微的空间错位也可能在边界框回归过程中被放大,导致定位不稳定和鲁棒性下降。因此,无人机小目标检测同时受到结构细节衰减和隐式跨路径融合不一致性的制约。
为解决这些问题,我们显式增强了结构细节保留,并在融合前校准了异构特征流(如图1所示)。我们认为,首先,在轻量化约束下应显式增强与定位相关的结构线索。其次,异构特征流应在融合前进行校准,以提高空间和语义兼容性。
在本文中,我们提出了CollabOD,一个基于YOLO11-M-P2[10]构建的协作小目标检测框架。CollabOD系统性地改进了输入编码、主干表征、多尺度融合和检测头设计,以实现结构细节增强、跨路径校准和计算效率。在VisDrone[11]、UAVDT[12]和AI-TOD[13]上的实验表明,CollabOD在具有挑战性的航拍场景中提升了检测鲁棒性。它在VisDrone[11]上实现了最高的AP75AP_{75}AP75,同时使用最低的GFLOPs,并在UAVDT[12]上获得了最佳的AP50AP_{50}AP50和AP50:95AP_{50:95}AP50:95,展现出强大的精度-效率权衡。在AI-TOD[13]上,我们的模型进一步建立了AP50AP_{50}AP50、AP50:95AP_{50:95}AP50:95、GFLOPs和FPS的最先进性能,同时实现了最高检测精度和最有利的计算效率。
本文的主要贡献总结如下:
-
我们开发了轻量级检测框架CollabOD,该框架同时增强结构细节并校准异构特征流,确保在有限计算预算下对小目标的稳定定位和高检测精度。
-
我们设计了双路径融合干(DPF-Stem)和密集聚合块(DABlock),以减轻深度网络中与定位相关的结构信息的逐层退化,在输入阶段保留边界和轮廓线索,同时补偿分层特征衰减。
-
我们引入了双侧重加权模块(BRM),通过通道级自适应权重生成和可学习缩放来提高跨尺度特征一致性。
-
我们提出了统一细节感知头(UDA Head),通过细节感知卷积增强边界回归,并使用重参数化来消除额外的推理开销。
二、相关工作
本节回顾了无人机小目标检测的最新进展,重点关注从部署约束下定位稳定性的角度看待的结构表征、跨尺度特征学习和效率感知定位设计。
A. 小目标的结构表征
对于无人机航拍图像中的小目标检测,结构表征能力可沿两个维度进行刻画:小目标的结构信息供给强度,以及结构特征在分层传播过程中的稳定性。相关研究主要沿两条对应路径发展:细节供给和结构补偿。
在信息供给层面,早期方法通常通过更高输入分辨率[14]、切片/分块推理[15]或超分辨率辅助[16]来增加有效像素,但对由深度下采样引起的结构信息退化缓解有限。更近期的检测框架显式引入更高分辨率的特征层[1]或调整金字塔分配策略[17]以保留细粒度结构,从而增强结构信息的初始表征能力。
在传播稳定性层面先进技术专注于边缘敏感增强[18]、局部上下文建模[19]和多路径表征设计[20],以加强结构线索的跨层传输,使小目标表征从单路径增强转向多源协作表达。主流趋势表明,在统一框架内同时改进结构信息供给和传播稳定性,可以更鲁棒地支持航拍图像中小目标的细粒度定位。
然而,在无人机系统的轻量化部署约束下,如何显式增强与定位相关的结构信息仍是一个关键问题。
B. 跨尺度和多分支特征学习
跨尺度和多分支设计的核心目标在于增强特征交互,以提高复杂场景中小目标的表征稳定性。早期方法以FPN[21]为代表,通过分层金字塔结构实现多尺度特征的渐进融合;PANet[22]或PAFPN[23]进一步强化双向信息流,而NAS-FPN[8]和ASF[24]通过自适应重分配和结构优化提高跨尺度融合灵活性。
随着网络架构的演进,多分支检测框架和多骨干设计[25]引入并行表征路径,通过差异化结构和显式交互机制增强特征多样性和互补表达;MoE[26]、跨分支门控[27]和协作蒸馏模型[28]进一步建模路径间信息选择和协同,使特征融合从隐式聚合转向显式交互和动态协作。
尽管跨尺度特征交互机制持续演进,现有方法在融合前对异构特征流之间一致性的建模仍然有限,这在无人机场景中可能放大空间和语义错位,从而损害细粒度定位稳定性。
C. 定位和高效检测设计
特征表征和交互机制最终必须转化为稳定定位和高效推理。为提升回归质量,现代检测器采用解耦的分类和回归分支[29],并集成基于IoU的损失函数如GIoU[30]、EIoU[31]和DIoU[32]以增强边界框稳定性。鉴于小目标对细粒度结构线索的敏感性,几种方法进一步优化回归设计或强化边界感知表征。重参数化和轻量级骨干网络进一步用于平衡效率和表征能力,实现计算受限环境中的部署。
综合来看,表征、交互和预测之间的协作机制对于鲁棒部署变得越来越重要。

图2. 提出的CollabOD框架概述。DPF-Stem表示双路径融合干,DABlock代表密集聚合块,BRM指双侧重加权模块。UDA Head对应统一细节感知头,在第三节C中详述。其余组件继承自原始YOLO11架构。
三、方法论
在本节中,我们提出CollabOD------一个用于无人机图像的轻量级小目标检测框架(如图2所示)。考虑到轻量化部署约束下由结构退化和跨路径不一致性引起的定位不稳定性,我们专注于两个方面:增强与定位相关的结构信息,以及在融合前提高异构特征流的一致性。因此,提出的框架由三个协作组件构成:结构细节保留、跨路径特征校准和定位感知轻量化设计。三个提出的机制分别在第三-A、第三-B和第三-C节中详细讨论。
A. 结构细节保留
无人机图像中用于精确定位的小目标线索主要存在于边界轮廓和纹理梯度中。然而,深度骨干网络中的反复下采样会逐渐衰减这些高频响应。为在输入和骨干阶段同时减轻结构衰减,我们设计了用于早期保留的双路径融合干(DPF-Stem)和用于分层补偿的密集聚合块(DABlock)。
a) 双路径融合干: 给定输入特征X∈RC×H×WX \in \mathbb{R}^{C \times H \times W}X∈RC×H×W,DPF-Stem的核心原则是将特征分割为两个互补流:结构流和细节流。首先,对输入特征进行嵌入和分割:
{Xs,Xd}=Split(ϕ(X)),\{X_s, X_d\} = \operatorname{Split}(\phi(X)),{Xs,Xd}=Split(ϕ(X)),
其中ϕ(⋅)\phi(\cdot)ϕ(⋅)表示轻量级特征嵌入,Split(⋅)\operatorname{Split}(\cdot)Split(⋅)表示通道级分割算子。这两个流分别负责保留低频几何轮廓和高频纹理梯度:
Zs=Ψpool(Xs),Zd=Ψconv(Xd),Z_s = \Psi_{pool}(X_s), \quad Z_d = \Psi_{conv}(X_d),Zs=Ψpool(Xs),Zd=Ψconv(Xd),
其中Ψpool\Psi_{pool}Ψpool采用最大投影或池化来聚合稳定的结构响应,Ψconv\Psi_{conv}Ψconv是一个可学习的轻量级卷积,设计用于保留纹理梯度和局部差分响应。随后,两个流在下采样后以相同尺度融合以获得干输出:
XDPF=ϕfuse(Zs⊕Zd),X_{DPF} = \phi_{fuse}(Z_s \oplus Z_d),XDPF=ϕfuse(Zs⊕Zd),
其中⊕\oplus⊕表示拼接,ϕfuse\phi_{fuse}ϕfuse是用于通道混合和尺度对齐的轻量级投影。这种双流建模确保DPF-Stem在下采样前后保留高频结构响应,从而减轻早期结构信息的丢失。
b) 密集聚合块: 尽管结构细节在输入阶段得到保留,但在深度网络内的反复下采样和跨层传播过程中仍会逐渐衰减。DABlock的目标是通过密集聚合持续将浅层细粒度结构响应注入深层特征,从而补偿骨干网络中的分层结构衰减。令{Xi}i=1n\{X_i\}_{i=1}^{n}{Xi}i=1n表示对齐到当前尺度的前置阶段的特征图。DABlock通过堆叠卷积聚合这些特征并进行细化:

图3. DABlock层间有效感受野可视化。
XDABlock=ψconv(2)(⨁i=1nXi)+δX,δ∈{0,1}.X_{DABlock} = \psi_{conv}^{(2)}\left(\bigoplus_{i=1}^{n}X_i\right) + \delta X, \quad \delta \in \{0,1\}.XDABlock=ψconv(2)(i=1⨁nXi)+δX,δ∈{0,1}.
这里⊕\oplus⊕表示特征聚合,XXX是当前阶段输入。残差开关δ\deltaδ在启用时保留恒等传播。这种设计有效地在更深层表征中强化了浅层结构线索,从而减轻了上述细节衰减。
从有效感受野(ERF)的角度来看,密集聚合促进了跨层的渐进空间交互。通过整合对齐的多级特征,DABlock在保留结构细节的同时增强了长距离依赖建模。如图3所示,ERF随深度稳步扩展,呈现出越来越宽的高贡献区域。
B. 跨路径特征校准
为减轻异构特征流在融合前的不一致性,我们构建了双侧重加权模块(BRM),以在校准多骨干路径融合之前校准双流特征。具体而言,给定相同尺度的双流特征X(1),X(2)∈RC×H×WX^{(1)}, X^{(2)} \in \mathbb{R}^{C \times H \times W}X(1),X(2)∈RC×H×W,我们首先使用轻量级投影(如1×11 \times 11×1卷积)将特征映射到统一嵌入空间以获得X^(1)\hat{X}^{(1)}X^(1)和X^(2)\hat{X}^{(2)}X^(2)。随后,我们跨路径联合嵌入它们以捕获联合上下文:
Z=ψ([X^(1),X^(2)]),Z = \psi\left(\left[\hat{X}^{(1)}, \hat{X}^{(2)}\right]\right),Z=ψ([X^(1),X^(2)]),
其中[⋅,⋅][\cdot, \cdot][⋅,⋅]表示沿通道维度的拼接,ψ\psiψ是用于建模跨路径依赖的轻量级空间交互算子。然后,通过激活和分割生成双侧门控掩码:
G(1),G(2)\]=Split(σ(Z)),\\left\[G\^{(1)}, G\^{(2)}\\right\] = \\operatorname{Split}\\left(\\sigma(Z)\\right),\[G(1),G(2)\]=Split(σ(Z)), 其中σ\\sigmaσ表示Sigmoid激活函数,Split(⋅)\\operatorname{Split}(\\cdot)Split(⋅)将通道均匀分割以获得双流掩码G(k)∈(0,1)C×H×WG\^{(k)} \\in (0,1)\^{C \\times H \\times W}G(k)∈(0,1)C×H×W。与仅通道级门控不同,这些掩码是空间相关的,能够在复杂背景下更精细地抑制跨路径冗余和偏置响应。 在获得双侧掩码后,BRM通过可学习的通道幅度调制对两个流进行重加权,并在融合前实现统计尺度校准: XBRM=ϕout(∑k=12X\^(k)⊙G(k)⊙λ(k)),X_{BRM} = \\phi_{out}\\left(\\sum_{k=1}\^{2}\\hat{X}\^{(k)} \\odot G\^{(k)} \\odot \\lambda\^{(k)}\\right),XBRM=ϕout(k=1∑2X\^(k)⊙G(k)⊙λ(k)), 其中⊙\\odot⊙表示Hadamard积;λ(k)∈RC×1×1\\lambda\^{(k)} \\in \\mathbb{R}\^{C \\times 1 \\times 1}λ(k)∈RC×1×1是一个可学习的通道缩放因子,设计用于平衡两个流的响应幅度并稳定梯度流;ϕout\\phi_{out}ϕout是用于通道混合和输出整合的1×11 \\times 11×1投影。通过双侧空间重加权和通道校准,BRM在融合前减轻了跨路径差异,从而提高了特征兼容性并稳定了后续定位回归。 ### C. 定位感知轻量化设计 在结构增强和跨路径校准之后,剩余的关键挑战是使回归头能够稳定地利用这些结构线索,同时在推理阶段不引入额外的计算开销。为此,提出的统一细节感知头(UDA Head)通过共享细节增强和解耦预测,在定位稳定性和效率之间取得稳健平衡。 **a) 前向过程:** 具体前向过程总结在算法1中,其中多尺度特征表示为FiF_iFi。 **算法1 UDA Head:统一细节感知头** > 输入:多尺度特征{Fi}i∈{xs,s,m,l}\\{F_i\\}_{i \\in \\{xs, s, m, l\\}}{Fi}i∈{xs,s,m,l},类别数NcN_cNc,DFL bins > RRR,隐藏维度ChC_hCh > > 输出:解码的边界框BBB和分类分数SSS > > 1: // 共享投影和细节增强 > > 2: for i∈{xs,s,m,l}i \\in \\{xs, s, m, l\\}i∈{xs,s,m,l} do > > 3: Gi←S(Conv1×1(Fi))G_i \\leftarrow \\mathcal{S}(\\text{Conv}_{1 \\times 1}(F_i))Gi←S(Conv1×1(Fi)) > > 4: Pi←Concat(siHbox(Gi),Hcls(Gi))P_i \\leftarrow \\text{Concat}(s_i \\mathcal{H}_{box}(G_i), \\mathcal{H}_{cls}(G_i))Pi←Concat(siHbox(Gi),Hcls(Gi)) > > 5: end for > > 6: // 展平并合并多尺度预测 > > 7: Q←Concati∈{xs,s,m,l}(Reshape(Pi))Q \\leftarrow \\text{Concat}_{i \\in \\{xs, s, m, l\\}} (\\text{Reshape}(P_i))Q←Concati∈{xs,s,m,l}(Reshape(Pi)) > > 8: // 分布焦点损失解码 > > 9: (Braw,Craw)←Split(Q,{4R,Nc})(B_{\\text{raw}}, C_{\\text{raw}}) \\leftarrow \\text{Split}(Q, \\{4R, N_c\\})(Braw,Craw)←Split(Q,{4R,Nc}) > > 10: D←DFL(Braw)D \\leftarrow DFL(B_{\\text{raw}})D←DFL(Braw) →\\rightarrow→ 将分布转换为距离 > > 11: // 边界框解码 > > 12: B←Dist2BBox(D)B \\leftarrow \\text{Dist2BBox}(D)B←Dist2BBox(D) > > 13: S←σ(Craw)S \\leftarrow \\sigma(C_{\\text{raw}})S←σ(Craw) > > 14: return Concat(B,S)\\text{Concat}(B, S)Concat(B,S) **b) 复杂度分析:** 主要计算开销来自共享细节增强块S\\mathcal{S}S和预测头。令N=∑iHiWiN = \\sum_i H_i W_iN=∑iHiWi表示所有尺度的空间位置总数。时间复杂度可表示为: O(NCh2)+O(NCh)+O(NR).\\mathcal{O}\\big(N C_h\^2\\big) + \\mathcal{O}\\big(N C_h\\big) + \\mathcal{O}\\big(N R\\big).O(NCh2)+O(NCh)+O(NR). 通常,由于Ch≫RC_h \\gg RCh≫R,主导项是O(NCh2)\\mathcal{O}(NC_h\^2)O(NCh2)。空间复杂度主要由中间特征和预测logits组成: O(NCh)+O(N(4R+Nc)).\\mathcal{O}\\big(N C_h\\big) + \\mathcal{O}\\big(N(4R + N_c)\\big).O(NCh)+O(N(4R+Nc)). 由于S\\mathcal{S}S和投影在所有尺度间共享,UDA Head在增强回归细节感知的同时保持了较低的额外参数量和推理开销,使其非常适合计算资源受限的无人机部署场景。 ## 四、实验与结果 ### A. 实验设置 **1) 实现细节:** CollabOD基于YOLO11-M-P2架构构建。所有实验均在NVIDIA RTX 5090D GPU上进行。我们使用SGD优化器,初始学习率为0.01,动量为0.937。输入图像尺寸为640×640640 \\times 640640×640,批量大小为8,训练500个epoch。 **2) 数据集:** 我们在三个广泛使用的无人机目标检测基准上进行了大量实验,分别是VisDrone-2019-DET\[11\]、UAVDT\[12\]和AI-TOD\[13\]。VisDrone-2019-DET\[11\]是一个广泛采用的无人机检测基准,包含10,209张图像,采集自不同城市、时间和飞行高度,涵盖10个类别(如货车、卡车、棚三轮车),具有显著的尺度变化和复杂背景。UAVDT\[12\]是一个大规模交通导向的无人机基准,包含从100个视频序列中提取的77,819张带标注帧,涵盖城市道路、交叉口和高速公路上的四种车辆类别(汽车、卡车、公交车和其他车辆),具有丰富的属性标注,包括天气、高度、遮挡和光照条件。AI-TOD\[13\]是一个专为微小目标检测设计的遥感基准,包含28,036张图像和700,621个带标注实例。它涵盖八个目标类别,包括桥、船、车辆、储罐、人、游泳池、风车和飞机。 **3) 指标:** 我们采用标准COCO评估协议\[42\],报告APSAP_SAPS、APMAP_MAPM、AP50AP_{50}AP50、AP75AP_{75}AP75和AP50:95AP_{50:95}AP50:95(IoU从0.5到0.95平均,步长0.05)以评估不同定位严格度下的检测一致性。 ### B. VisDrone数据集上的结果 **1) 对比结果:** 我们在VisDrone-2019-DET基准上,将CollabOD与广泛的最新检测器进行了比较。定量结果总结在表I中。  在20.9M参数量和65.5 GFLOPs下,CollabOD实现了52.4 AP50AP_{50}AP50、30.8 AP75AP_{75}AP75和29.9 AP50:95AP_{50:95}AP50:95。在所有比较方法中,CollabOD达到了最高的AP75AP_{75}AP75,表明在更严格的IoU阈值下具有更好的定位稳定性。这一提升与显式增强与定位相关的结构线索以及在多尺度融合前提高特征一致性的做法一致,同时保持了低计算成本。 与广泛采用的YOLO11-M-P2相比,CollabOD将AP50AP_{50}AP50从46.4提升到52.4,将AP75AP_{75}AP75从25.3提升到30.8,分别提升了6.0和5.5个百分点。同时,计算成本从91.3 GFLOPs降低到65.5 GFLOPs。这一结果表明,增强与定位相关的结构信息以及在融合前校准异构特征流可以在不增加推理复杂度的情况下提高高质量定位。 与需要170.0 GFLOPs的基于Transformer的方法(如UAV-DETR-R50)相比,CollabOD以显著更低的计算开销实现了具有竞争力或更优的检测性能。这些结果验证了所提出的框架在保持实际效率的同时提供了强大的定位能力,这对于基于无人机的部署场景尤为重要。 这些结果使CollabOD成为无人机小目标检测的一种高效且准确的解决方案。 为进一步验证其有效性,我们在图4中展示了定性比较。即使在目标密集分布的杂乱场景中,CollabOD仍保持集中的激活响应和稳定的定位,产生更少的漏检和更精确的边界框。 **2) 消融研究:** 我们在VisDrone-2019-DET数据集上进行了逐步消融研究,以评估每个提出组件的个体贡献。在相同训练设置下,DPF-Stem、DABlock、BRM和UDA Head逐步集成到基准检测器中。定量结果总结在表II中。  从基准开始,引入DPF-Stem将AP50AP_{50}AP50从26.2提升到29.1,表明增强的浅层特征建模有利于小目标表征。尽管在此阶段AP75AP_{75}AP75下降,但整体检测性能保持稳定,而计算成本降低到51.2 GFLOPs,展现了提高的效率。 在合并DABlock后,AP75AP_{75}AP75增加到44.6,展示了在更严格IoU阈值下改进的定位精度。此外,APSAP_SAPS和APMAP_MAPM呈现一致的改进,验证了自适应特征增强对不同尺度目标的有效性。 随着BRM的引入,检测器达到49.1 AP50AP_{50}AP50和27.0 AP50:95AP_{50:95}AP50:95,反映了在融合前异构特征流一致性的改善。该模块在IoU阈值上的平均检测指标带来了明显改善,表明增强了整体检测鲁棒性。 最后,集成UDA Head进一步将性能提升到50.7 AP50AP_{50}AP50、52.4 AP75AP_{75}AP75和30.8 AP50:95AP_{50:95}AP50:95,在所有配置中取得了最佳结果。与之前的变体相比,AP75AP_{75}AP75提升了2.3个百分点,确认了统一细节感知头的有效性。  图4. 基准和CollabOD在VisDrone-2019-DET上的定性比较。在以小目标为主的复杂航拍场景中,CollabOD表现出更低的漏检率和比基准模型更准确的定位。 重要的是,这种精度提升以65.5 GFLOPs实现,这与基准复杂度相当,并保持了精度和计算成本之间的有利权衡。 总体而言,跨多个评估指标的一致改进表明,每个组件都贡献了互补的增强,导致了一个针对无人机小目标场景量身定制的鲁棒且高效的检测框架。  ### C. UAVDT数据集上的结果 在UAVDT基准上,对比结果报告在表III中。CollabOD实现31.2 AP50AP_{50}AP50、17.9 AP75AP_{75}AP75和17.4 AP50:95AP_{50:95}AP50:95,在比较方法中获得了最佳的AP50AP_{50}AP50和AP50:95AP_{50:95}AP50:95。此外,它在AP75AP_{75}AP75上排名第二,表明在更严格的IoU阈值下具有稳定的定位性能。 这些结果证明了所提出的框架在主要基准之外的交通导向无人机场景中的有效泛化。  为进一步检查模型在UAVDT上的行为,我们提供了热图可视化用于定性分析。使用与VisDrone实验相同的可视化协议,我们比较了ClusDet和CollabOD的激活响应。可视化显示,CollabOD在目标区域周围产生更集中的响应,并与周围背景区域保持更清晰的分离,这与图5中报告的改进的定量性能一致。 ### D. AI-TOD数据集上的结果 **1) 对比结果:** 在AI-TOD基准上,对比结果总结在表IV中。CollabOD实现45.4 AP50AP_{50}AP50和20.0 AP50:95AP_{50:95}AP50:95,在两个指标上都在所有YOLO系列模型中获得了最佳性能。与最强基准相比,它比YOLOv12-M-P2的AP50AP_{50}AP50提升了0.7点,并超过了YOLO11-M-P2实现的19.5的第二最佳AP50:95AP_{50:95}AP50:95值0.5点。  在效率方面,尽管CollabOD引入了稍多的参数(29.9M),但它实现了最低的计算成本65.5 GFLOPs和最高的推理速度137 FPS,展现了卓越的精度-效率权衡。 这些结果表明,提出的协作检测框架有效地增强了AI-TOD上的小目标检测性能,同时保持了有竞争力的实时能力。 **2) 消融研究:** 在AI-TOD数据集上,我们进行了消融研究以评估所提出框架中每个组件的贡献,如表V所示。从基准模型开始,它以91.3 GFLOPs和101 FPS实现44.5 AP50AP_{50}AP50和19.5 AP50:95AP_{50:95}AP50:95,我们逐步合并DPF-Stem、DABlock、BRM和UDA Head。  引入DPF-Stem将推理速度提升到110 FPS,同时将计算成本降低到51.2 GFLOPs,检测精度略有波动。添加DABlock进一步将AP50AP_{50}AP50增强到43.7和AP50:95AP_{50:95}AP50:95到18.8,展示了其加强特征表征的有效性。当合并BRM时,检测性能提升到44.2 AP50AP_{50}AP50和19.3 AP50:95AP_{50:95}AP50:95,同时保持74.8 GFLOPs的高效计算。 最后,集成UDA Head产生了完整的CollabOD模型,以45.4 AP50AP_{50}AP50和20.0 AP50:95AP_{50:95}AP50:95实现最佳整体性能,同时将计算成本降低到65.5 GFLOPs并将推理速度提升到137 FPS。这些结果验证了每个组件都对检测精度和效率做出了积极贡献,它们的组合导致了一致且互补的性能提升。 ## 五、结论 我们提出了CollabOD------一个用于无人机小目标检测的轻量级框架,通过增强结构线索和在融合前校准特征流来提高定位稳定性。在VisDrone、UAVDT和AI-TOD上的实验表明,在具有竞争力的效率下,在更严格的IoU阈值下性能得到改善。未来的工作将探索实时机载部署以及与下游航空任务(如多目标跟踪和协作无人机感知)的集成。 ## 致谢 本工作受基于无人机巢系统的铁路基础设施自动检测与评估关键技术(Grant SHTL-25-48)、国能朔黄铁路发展有限公司支持。