无人机“视觉感知”高价值专利案例：面向城市复杂场景的无人机小目标识别方法

课题来源： 某航天研究所横向合作课题

案例定位： 面向智慧城市治理的计算机视觉专利布局与成果商业化转化实践

1 项目背景

某航天研究所智能感知技术研究室承担了"城市复杂低空环境下的无人机自主巡检与应急监测技术"课题。研究团队在前期基于YOLOv5架构实现了无人机视角下的基础目标检测方案，但在城市密集场景下的小目标特征提取效率、下采样过程中的细节信息保留、重叠遮挡目标的高精度辨识等方面存在明显瓶颈。深度森林公司受托从专利挖掘与布局视角介入，围绕核心创新点构建了"分块复合注意力机制---自适应交错下采样---多尺度特征重定向"三层技术体系，完成1项核心发明专利申请及配套验证与转化规划。

2 本专利要解决的问题

2.1 城市复杂场景下小目标空间语义提取粒度不足的问题

无人机在高空巡航城市环境时，行人、交通标识、非机动车等关键目标在整幅图像中占比通常低于5%，像素信息极其有限。常规通道注意力机制在聚合全局空间信息时，对不同局部区域通道重要性的区分能力弱，导致模型难以捕捉密集小目标之间细微的特征差异，进而引发漏检与定位偏差。

2.2 常规跨步下采样导致小目标细节信息不可逆流失的问题

现有主流检测网络普遍采用跨步卷积或池化实现特征图尺寸压缩。此类操作建立在自然场景图像存在大量冗余像素的假设之上。然而，对于像素本就稀疏的城市小目标，跨步采样会直接丢弃大量关键边缘与纹理信息，且相邻像素在压缩后的特征表达不均衡，对小目标检测极不友好。

2.3 多尺度特征融合网络与小目标检测需求失配的问题

原始检测网络的特征金字塔结构主要面向常规尺寸目标设计，深层小尺寸特征图虽语义丰富但感受野过大，对城市小目标的检测贡献有限，反而引入冗余计算量，影响机载边缘计算平台的实时性。

3 专利技术核心价值点

3.1 基于分块复合注意力机制的细粒度特征聚焦方法

本发明针对城市小目标检测对局部细节敏感的特性，提出一种即插即用的分块复合注意力模块。该模块将输入特征图在空间维度上切分为若干局部特征块，对每一局部区域独立提取通道注意力权重，强化通道信息在局部空间邻域内的区分度。随后将聚焦后的分块特征重组，并与原始输入特征融合以保留空间位置敏感性，再经由级联的空间注意力模块完成对有效语义区域的二次增强。上述过程在不显著增加参数量的前提下，显著提升了模型对小尺度、密集排列目标的细粒度感知能力。

3.2 面向小目标信息保留的自适应交错下采样方法

为从根本上缓解常规下采样造成的小目标信息损失，本发明抛弃跨步卷积的下采样范式，设计一种自适应交错下采样模块。该模块将输入特征图的像素按奇偶行列交错抽取并沿通道维度堆叠，在无信息丢失的前提下将空间分辨率减半、通道数扩增四倍。随后，紧耦合所述分块复合注意力模块，对扩充后的通道特征进行自适应权重分配，突出对小目标响应强烈的通道并抑制背景噪声。最后通过归一化与全连接层将通道压缩至目标维度，完成高质量的下采样特征表达。

3.3 面向城市小目标的多尺度检测结构重定向与软性非极大值抑制

本发明对特征融合网络架构进行针对性重构：剪除面向大目标的深层小尺寸特征图检测分支以降低计算开销，同时新增源自浅层网络的大尺寸特征图检测头，丰富小目标的锚框密度与空间细节信息；优化特征融合路径，使浅层细节特征与深层语义特征在多个尺度上充分交互。在推理后处理阶段，采用基于高斯衰减权重的软性非极大值抑制算法替代传统的硬截断抑制策略，对重叠目标候选框的置信度进行平滑衰减而非直接归零，有效改善密集人群与车辆场景下的遮挡漏检问题。

4 专利转化验证与分析

为验证本案例提出的面向城市复杂场景的无人机小目标识别方法的可行性与先进性，本节基于公开的无人机视角城市目标数据集进行仿真对比实验，将本案例算法与基线YOLOv5s模型及其他主流目标检测算法进行综合比较。

实验平台基于Ubuntu操作系统与NVIDIA GeForce RTX 3080Ti显卡，软件环境为PyTorch框架。评估指标包含平均精度均值、召回率、精确率及模型计算复杂度。数据集涵盖不同城市功能区、不同时段及密集遮挡场景，能够真实反映无人机低空巡检的实际工况。

4.1 消融实验分析

以YOLOv5s为基准模型，逐步引入本专利所提各技术模块进行消融验证。首先，仅引入重构后的多尺度检测网络结构，模型参数量下降约59%，计算量降低0.8 GFLOPs，同时平均精度均值提升5.13个百分点。这表明剪除冗余深层检测分支并增加浅层小目标检测头，在轻量化的同时显著增强了小目标感知能力。

在主干网络同位置分别嵌入经典通道注意力模块、空间与通道混合注意力模块及本专利提出的分块复合注意力模块进行对比。结果表明，本专利分块复合注意力模块在所有指标上均取得最优表现，平均精度均值额外提升1.04个百分点，且参数量增量微小。这说明对特征图进行局部分块通道注意力提取的策略，能够有效捕捉密集小目标间细微的通道响应差异。

进一步将自适应交错下采样模块替换原跨步卷积下采样层，并与分块复合注意力模块深度耦合。该组合将平均精度均值较基准模型提升1.8个百分点，验证了交错抽取无损失采样与注意力自适应聚焦之间的强适配性。

最后，将后处理阶段的非极大值抑制算法替换为软性非极大值抑制，密集重叠目标的漏检现象得到明显改善，平均精度均值再度获得显著提升。

4.2 综合对比分析

将本案例最终算法与Faster R-CNN、RetinaNet、YOLOv4、YOLOv5s等代表性算法在相同数据集上进行横向对比。本案例算法在平均精度均值指标上较基线YOLOv5s提升超过11个百分点，模型参数量减少约六成，推理帧率接近基线水平，实现了精度、速度与轻量化的平衡。在目标尺度极小、相互遮挡严重的城市十字路口与商业街区场景中，本案例算法的漏检率显著低于对比算法，且预测框与真实目标边界的贴合度更高。

5 专利转化成效

相关技术成果已进入实质转化与权属固化阶段。

山东深度森林信息科技有限公司是一家面向高质量专利"挖掘-设计-转化"的技术服务团队。