CollabOD：用于无人机小目标检测的跨尺度视觉协作多骨干网络

白学成^1,，王宇翔^2,，徐传智^2,†，胡伯宇³，韩康^1,4，潘瑞杰¹，牛晓伟⁵，关晓天⁵，付利强⁵，叶鹏飞⁶

摘要

无人机（UAV）图像中的小目标检测面临巨大挑战，主要原因包括尺度变化、结构细节退化以及有限的计算资源。在高空场景中，细粒度特征在分层下采样和跨尺度融合过程中进一步被削弱，导致定位不稳定且鲁棒性下降。为解决这一问题，我们提出了CollabOD------一个轻量级协作检测框架，该框架在多尺度融合前明确保留结构细节并校准异构特征流。该框架整合了结构细节保留、跨路径特征校准和定位感知轻量化设计三大策略。从图像处理、通道结构和轻量化设计的角度出发，它优化了传统无人机感知模型的架构。所提出的设计增强了表征稳定性，同时保持了高效的推理能力。统一的细节感知检测头进一步提升了回归鲁棒性，且不引入额外的部署开销。代码已开源：https://github.com/Bai-Xuecheng/CollabOD。

一、引言

无人机已成为自动驾驶感知的重要平台，广泛应用于城市交通监控[1]、交通流量分析[2]和停车管理[3]等场景。在这些场景中，目标检测通过准确识别和定位航拍图像中的目标，在可靠的交通状态评估中发挥着关键作用。然而，高空作业带来了显著的尺度变化、大量远距离小目标以及有限的机载计算资源，使得轻量级且高精度的检测模型成为迫切需求。

从特征表征的角度来看，通常小于32×3232 \times 3232×32像素的航拍小目标包含极其有限的判别信息。它们的特征在反复下采样过程中迅速退化，导致表征能力弱[4]和低信噪比[2]，特别是在低对比度[5]、运动模糊[6]和大气畸变[4]等具有挑战性的航拍条件下。

图1. 传统单流检测与CollabOD的对比。单流方法会削弱结构线索并进行隐式融合，导致空间错位。CollabOD在融合前解耦并校准了结构与细节表征，以提高稳定性和准确性。

在这种情况下，用于区分前景和背景的细粒度结构线索（如目标边界和边缘纹理）变得至关重要，因此需要精确的定位[3]，[7]。尽管特征金字塔网络保留了多尺度表征，但其跨尺度融合通常通过简单的加法或拼接实现，缺乏对结构细节衰减和跨层错位的显式建模。

现有方法通过引入辅助分支[3]、[8]、注意力机制[3]或精细的融合策略[6]、[9]来增强表征能力。虽然这些设计有效，但通常会产生具有不同感受野分布和语义偏差的异构特征流。传统融合隐式假设路径间存在空间和语义兼容性，难以显式抑制跨路径差异。对于本身结构和语义表征就有限的小目标，即使轻微的空间错位也可能在边界框回归过程中被放大，导致定位不稳定和鲁棒性下降。因此，无人机小目标检测同时受到结构细节衰减和隐式跨路径融合不一致性的制约。

为解决这些问题，我们显式增强了结构细节保留，并在融合前校准了异构特征流（如图1所示）。我们认为，首先，在轻量化约束下应显式增强与定位相关的结构线索。其次，异构特征流应在融合前进行校准，以提高空间和语义兼容性。

在本文中，我们提出了CollabOD，一个基于YOLO11-M-P2[10]构建的协作小目标检测框架。CollabOD系统性地改进了输入编码、主干表征、多尺度融合和检测头设计，以实现结构细节增强、跨路径校准和计算效率。在VisDrone[11]、UAVDT[12]和AI-TOD[13]上的实验表明，CollabOD在具有挑战性的航拍场景中提升了检测鲁棒性。它在VisDrone[11]上实现了最高的AP75AP_{75}AP75，同时使用最低的GFLOPs，并在UAVDT[12]上获得了最佳的AP50AP_{50}AP50和AP50:95AP_{50:95}AP50:95，展现出强大的精度-效率权衡。在AI-TOD[13]上，我们的模型进一步建立了AP50AP_{50}AP50、AP50:95AP_{50:95}AP50:95、GFLOPs和FPS的最先进性能，同时实现了最高检测精度和最有利的计算效率。

本文的主要贡献总结如下：

我们开发了轻量级检测框架CollabOD，该框架同时增强结构细节并校准异构特征流，确保在有限计算预算下对小目标的稳定定位和高检测精度。
我们设计了双路径融合干（DPF-Stem）和密集聚合块（DABlock），以减轻深度网络中与定位相关的结构信息的逐层退化，在输入阶段保留边界和轮廓线索，同时补偿分层特征衰减。
我们引入了双侧重加权模块（BRM），通过通道级自适应权重生成和可学习缩放来提高跨尺度特征一致性。
我们提出了统一细节感知头（UDA Head），通过细节感知卷积增强边界回归，并使用重参数化来消除额外的推理开销。

二、相关工作

本节回顾了无人机小目标检测的最新进展，重点关注从部署约束下定位稳定性的角度看待的结构表征、跨尺度特征学习和效率感知定位设计。

A. 小目标的结构表征

对于无人机航拍图像中的小目标检测，结构表征能力可沿两个维度进行刻画：小目标的结构信息供给强度，以及结构特征在分层传播过程中的稳定性。相关研究主要沿两条对应路径发展：细节供给和结构补偿。

在信息供给层面，早期方法通常通过更高输入分辨率[14]、切片/分块推理[15]或超分辨率辅助[16]来增加有效像素，但对由深度下采样引起的结构信息退化缓解有限。更近期的检测框架显式引入更高分辨率的特征层[1]或调整金字塔分配策略[17]以保留细粒度结构，从而增强结构信息的初始表征能力。

在传播稳定性层面先进技术专注于边缘敏感增强[18]、局部上下文建模[19]和多路径表征设计[20]，以加强结构线索的跨层传输，使小目标表征从单路径增强转向多源协作表达。主流趋势表明，在统一框架内同时改进结构信息供给和传播稳定性，可以更鲁棒地支持航拍图像中小目标的细粒度定位。

然而，在无人机系统的轻量化部署约束下，如何显式增强与定位相关的结构信息仍是一个关键问题。

B. 跨尺度和多分支特征学习

跨尺度和多分支设计的核心目标在于增强特征交互，以提高复杂场景中小目标的表征稳定性。早期方法以FPN[21]为代表，通过分层金字塔结构实现多尺度特征的渐进融合；PANet[22]或PAFPN[23]进一步强化双向信息流，而NAS-FPN[8]和ASF[24]通过自适应重分配和结构优化提高跨尺度融合灵活性。

随着网络架构的演进，多分支检测框架和多骨干设计[25]引入并行表征路径，通过差异化结构和显式交互机制增强特征多样性和互补表达；MoE[26]、跨分支门控[27]和协作蒸馏模型[28]进一步建模路径间信息选择和协同，使特征融合从隐式聚合转向显式交互和动态协作。

尽管跨尺度特征交互机制持续演进，现有方法在融合前对异构特征流之间一致性的建模仍然有限，这在无人机场景中可能放大空间和语义错位，从而损害细粒度定位稳定性。

C. 定位和高效检测设计

特征表征和交互机制最终必须转化为稳定定位和高效推理。为提升回归质量，现代检测器采用解耦的分类和回归分支[29]，并集成基于IoU的损失函数如GIoU[30]、EIoU[31]和DIoU[32]以增强边界框稳定性。鉴于小目标对细粒度结构线索的敏感性，几种方法进一步优化回归设计或强化边界感知表征。重参数化和轻量级骨干网络进一步用于平衡效率和表征能力，实现计算受限环境中的部署。

综合来看，表征、交互和预测之间的协作机制对于鲁棒部署变得越来越重要。

图2. 提出的CollabOD框架概述。DPF-Stem表示双路径融合干，DABlock代表密集聚合块，BRM指双侧重加权模块。UDA Head对应统一细节感知头，在第三节C中详述。其余组件继承自原始YOLO11架构。

三、方法论

在本节中，我们提出CollabOD------一个用于无人机图像的轻量级小目标检测框架（如图2所示）。考虑到轻量化部署约束下由结构退化和跨路径不一致性引起的定位不稳定性，我们专注于两个方面：增强与定位相关的结构信息，以及在融合前提高异构特征流的一致性。因此，提出的框架由三个协作组件构成：结构细节保留、跨路径特征校准和定位感知轻量化设计。三个提出的机制分别在第三-A、第三-B和第三-C节中详细讨论。

A. 结构细节保留

无人机图像中用于精确定位的小目标线索主要存在于边界轮廓和纹理梯度中。然而，深度骨干网络中的反复下采样会逐渐衰减这些高频响应。为在输入和骨干阶段同时减轻结构衰减，我们设计了用于早期保留的双路径融合干（DPF-Stem）和用于分层补偿的密集聚合块（DABlock）。

a) 双路径融合干： 给定输入特征X∈RC×H×WX \in \mathbb{R}^{C \times H \times W}X∈RC×H×W，DPF-Stem的核心原则是将特征分割为两个互补流：结构流和细节流。首先，对输入特征进行嵌入和分割：

{Xs,Xd}=Split⁡(ϕ(X)),\{X_s, X_d\} = \operatorname{Split}(\phi(X)),{Xs,Xd}=Split(ϕ(X)),

其中ϕ(⋅)\phi(\cdot)ϕ(⋅)表示轻量级特征嵌入，Split⁡(⋅)\operatorname{Split}(\cdot)Split(⋅)表示通道级分割算子。这两个流分别负责保留低频几何轮廓和高频纹理梯度：

Zs=Ψpool(Xs),Zd=Ψconv(Xd),Z_s = \Psi_{pool}(X_s), \quad Z_d = \Psi_{conv}(X_d),Zs=Ψpool(Xs),Zd=Ψconv(Xd),

其中Ψpool\Psi_{pool}Ψpool采用最大投影或池化来聚合稳定的结构响应，Ψconv\Psi_{conv}Ψconv是一个可学习的轻量级卷积，设计用于保留纹理梯度和局部差分响应。随后，两个流在下采样后以相同尺度融合以获得干输出：

XDPF=ϕfuse(Zs⊕Zd),X_{DPF} = \phi_{fuse}(Z_s \oplus Z_d),XDPF=ϕfuse(Zs⊕Zd),

其中⊕\oplus⊕表示拼接，ϕfuse\phi_{fuse}ϕfuse是用于通道混合和尺度对齐的轻量级投影。这种双流建模确保DPF-Stem在下采样前后保留高频结构响应，从而减轻早期结构信息的丢失。

b) 密集聚合块： 尽管结构细节在输入阶段得到保留，但在深度网络内的反复下采样和跨层传播过程中仍会逐渐衰减。DABlock的目标是通过密集聚合持续将浅层细粒度结构响应注入深层特征，从而补偿骨干网络中的分层结构衰减。令{Xi}i=1n\{X_i\}_{i=1}^{n}{Xi}i=1n表示对齐到当前尺度的前置阶段的特征图。DABlock通过堆叠卷积聚合这些特征并进行细化：

图3. DABlock层间有效感受野可视化。

XDABlock=ψconv(2)(⨁i=1nXi)+δX,δ∈{0,1}.X_{DABlock} = \psi_{conv}^{(2)}\left(\bigoplus_{i=1}^{n}X_i\right) + \delta X, \quad \delta \in \{0,1\}.XDABlock=ψconv(2)(i=1⨁nXi)+δX,δ∈{0,1}.

这里⊕\oplus⊕表示特征聚合，XXX是当前阶段输入。残差开关δ\deltaδ在启用时保留恒等传播。这种设计有效地在更深层表征中强化了浅层结构线索，从而减轻了上述细节衰减。

从有效感受野（ERF）的角度来看，密集聚合促进了跨层的渐进空间交互。通过整合对齐的多级特征，DABlock在保留结构细节的同时增强了长距离依赖建模。如图3所示，ERF随深度稳步扩展，呈现出越来越宽的高贡献区域。

B. 跨路径特征校准

为减轻异构特征流在融合前的不一致性，我们构建了双侧重加权模块（BRM），以在校准多骨干路径融合之前校准双流特征。具体而言，给定相同尺度的双流特征X(1),X(2)∈RC×H×WX^{(1)}, X^{(2)} \in \mathbb{R}^{C \times H \times W}X(1),X(2)∈RC×H×W，我们首先使用轻量级投影（如1×11 \times 11×1卷积）将特征映射到统一嵌入空间以获得X^(1)\hat{X}^{(1)}X^(1)和X^(2)\hat{X}^{(2)}X^(2)。随后，我们跨路径联合嵌入它们以捕获联合上下文：

Z=ψ([X^(1),X^(2)]),Z = \psi\left(\left[\hat{X}^{(1)}, \hat{X}^{(2)}\right]\right),Z=ψ([X^(1),X^(2)]),

其中[⋅,⋅][\cdot, \cdot][⋅,⋅]表示沿通道维度的拼接，ψ\psiψ是用于建模跨路径依赖的轻量级空间交互算子。然后，通过激活和分割生成双侧门控掩码：