破局红外小目标检测：异常感知Anomaly-Aware YOLO以“俭”驭“繁”

在当前复杂多变的国际安全形势下，国防现代化建设对感知与预警能力提出了更高要求。红外探测技术作为战场态势感知的关键组成部分，其性能直接关系到国防安全的保障水平。在此背景下，高效准确的红外小目标检测算法成为提升防御能力的重要技术支撑。

红外小目标检测（IRSTD）是国防领域中一项极具挑战性但又至关重要的任务，其特点是目标尺寸微小、背景复杂以及学习条件困难。基于深度学习的 IRSTD 方法已被提出来应对这些挑战，并取得了最先进的（SOTA）性能。这些方法利用密集嵌套架构或注意力机制等技术来减少小目标上的信息丢失并降低与背景元素的混淆。然而，当前的 SOTA IRSTD 方法由于依赖于分割网络而面临局限性。一个主要问题是它们的评估深受主观标注的影响。

论文标题：

Anomaly-Aware YOLO: A Frugal yet Robust Approach to Infrared Small Target Detection

论文链接：

arxiv.org/pdf/2510.04...

摘要

红外小目标检测（IRSTD）是国防应用中的一项具有挑战性的任务，在使用传统目标检测器时，复杂的背景和微小的目标尺寸常常导致大量的虚警。为了克服这一局限性，我们提出了异常感知 YOLO（AA-YOLO），它将统计异常检测测试集成到其检测头中。通过将小目标视为背景中意外的模式，AA-YOLO 有效地控制了虚警率。我们的方法不仅在多个 IRSTD 基准测试中取得了有竞争力的性能，而且在训练数据有限、存在噪声和域偏移的场景下也展现出了显著的鲁棒性。此外，由于仅修改了检测头，我们的设计具有高度的通用性，并已成功应用于各种 YOLO 骨干网络，包括轻量级模型。当集成到实例分割 YOLO 中时，它也提供了有希望的结果。这种多功能性使得 AA-YOLO 成为资源受限的现实世界部署中一个有吸引力的解决方案。

目前该代码还未开源，开源后用户可以自行安装到Coovally平台进行复现。

对于开发者和研究者而言，像Coovally 这样的AI平台已经集成了1000+预训练模型，您可以直接调用使用，极大简化了开发流程。

不仅如此，您也可以直接在Coovally平台上上传自己的模型和数据进行训练，享受一站式的AI开发体验。

！！点击下方链接，立即体验Coovally！！

平台链接： www.coovally.com

引言

如图 1 所示。具体来说，标注者可能标注整个车辆或突出显示具有高红外（IR）响应的最显著区域，从而导致矛盾的训练信号。这些不一致性会显著影响训练过程和像素级评估指标。此外，基于分割的方法经常遭受 i) 二值化特征图时的目标碎片化问题，以及 ii) 邻接问题，即两个相邻目标被错误地检测为单个目标。这些问题影响计数准确性，尤其是在民用安全等关键领域。

在本文中，我们倡导一个补充方向：将小红外目标检测为相对于背景的统计异常。通过将小目标视为背景中意外的模式，我们采用一个统计假设检验框架，其中背景分布被建模为零假设。重要的是，该测试在潜在空间中进行，并且对背景结构的假设要求最少。我们依赖于一种基于最大熵原理的实用指数建模，以推导出一个可解释的对象性分数，该分数能严格控制虚警。与传统的目标检测器不同，我们的方法显式地建模了潜在空间中小目标的意外性，从而能够同时实现 i) 有效的异常识别和 ii) 对虚警的显式控制。我们的方法在不同类型的节俭条件下实现了强大的性能：

数据节俭性： 即使仅使用 10% 的数据进行训练，我们的方法也能保持 SIRST 数据集全性能的至少 90%。
计算节俭性： 即使使用更轻量的网络，我们的方法也能与 SOTA 竞争，使其适合部署在资源受限的设备上。
通用设计： 我们的方法易于实现，仅需对检测头进行简单修改。这使得我们的方法具有高度适应性和用户友好性。

基于这些原因，我们的异常感知 YOLO（AA-YOLO）对于计算和数据资源有限的现实应用来说是一个引人注目的解决方案。我们的主要贡献总结如下：

1．我们提出了一种简单而有效的 YOLO 检测头，称为异常感知检测头（AADH），它集成了统计异常测试以改进 IRSTD。我们的方法提供了一个异常知情的对象性分数，该分数凭经验抑制背景。

2．通过将我们的 AADH 模块添加到几个传统的 YOLO 骨干网络（特别是轻量级骨干网络）中，我们缩小了与 SOTA 方法的性能差距。值得注意的是，AA-YOLOv7t 在著名的 IRSTD 基准测试中取得了 SOTA 结果，同时训练参数比 EFLNet 少六倍。当集成到实例分割 YOLO 中时，它也给出了有希望的结果。

3．AADH 显著提高了在节俭设置、迁移学习、噪声数据推理和操作上下文中的鲁棒性。

4．最后，我们的 AADH 通过将所有背景值约束为零，简化了检测阈值的选择。

在 YOLO 框架内的集成

架构概述

整体架构如图 3 所示。输入图像首先由标准的 YOLO 网络（如 YOLOv7 或 YOLOv9）处理。为了确保我们方法的通用性，我们只修改 YOLO 网络的检测头。具体来说，我们将对象性分数的预测与边界框坐标和类别分数的预测解耦。然后，我们使用我们的异常感知检测头（AADH）重新估计对象性分数，该检测头集成了所提出的统计异常检验。这个过程产生了范围从 0 到 1 的新对象性分数，现在反映了相对于学习到的背景分布的异常概念。包括 AADH 在内的整个网络，使用对象性分数的均方误差（MSE）损失进行端到端训练。我们将得到的架构称为 AA-YOLO（异常感知 YOLO）。当指定使用的骨干网络时，例如 YOLOv7，该网络称为 AA-YOLOv7。

异常感知检测头

如图 3 所示，AADH 由三个主要组成部分构成。首先，一个空间过滤块旨在捕获并聚集每个预测边界框中心体素周围的相关空间上下文。该块包括两个卷积核大小为 3 × 3 的卷积层，每个卷积层后接一个批量归一化层和 ReLU 激活。输出是一个 C 通道的特征图，然后该特征图经过统计检验 − ln(Fμ2 )（其中 Fμ2 由公式 (4) 给出）。函数 Fμ2 的行为（参见图 2）强调了 C 的选择影响 F 的锐度。我们的消融研究建议设置 C = 8 以获得最佳检测性能。为了确保统计检验的输出分数落在 0 和 1 之间，我们采用了一个由 α 参数化的缩放且零中心化的 sigmoid 激活函数，它能有效处理输出分数的不对称性。这个激活函数定义为 σ (x) = 2 − 1。鉴于我们的统计检验产生的分数缓慢增加（几乎线性，如图 2 所示）并且对于目标达到特别高的值，较小的 α（低于 1）有助于拉伸 sigmoid 曲线，使其能够更好地捕捉我们输出分数的细微差别。根据经验，我们在消融研究中发现，设置 α = 0.001 能带来最佳性能，因为它在敏感性和特异性之间提供了合适的权衡。

实验与结果

实验设置

数据集：为了评估我们的方法，我们依赖两个广泛采用的 IRSTD 基准测试：SIRST数据集和 IRSTD-1k数据集。
基线：我们使用几种不同大小的基于 YOLO 的架构来评估我们的方法，包括 YOLOv7 和轻量级版本，如 YOLOv7-tiny (YOLOv7t) 或 YOLOv9-tiny (YOLOv9t)。
评估指标：我们的评估依赖于标准的目标级指标，即 F1分数和平均精度（AP），即精确率-召回率曲线下的面积。

在两个IRSTD基准测试上的新SOTA结果

定量结果。表1表明，我们的 AADH 模块在不同 YOLO 基线上，无论编码器类型、训练参数数量（在表4中提供）或初始性能水平如何，都能一致地改进（仅有少数例外）并统一其在 SIRST 和 IRSTD-1k 数据集上的目标级性能。

例如，我们最小的骨干网络 YOLOv9t 在集成我们的 AADH 后，在 SIRST 数据集上的 F1 提高了 2.9%，在 IRSTD-1k 数据集上的 APs 提高了 4.0%。与 SOTA 方法相比，我们的方法 i) 优于基于分割的方法，ii) 对 [7] 提出的方法有益，并且 iii) 与 EFLNet 具有竞争力。值得注意的是，我们性能最佳的配置 AA-YOLOv7t，在 IRSTD-1k 上的 APs 比 EFLNet 提高了 1.1%，同时训练参数少了六倍并且设计节俭。

定性分析。图 4 显示，与 YOLOv7t 和 EFLNet 相比，我们的方法产生了非常干净的对象性分数图，只有小目标分数从接近零的背景中显现出来。优化过程是这种行为的关键，因为它使网络能够以以下方式调整特征表示：1) 目标与零假设 H0 充分不同，从而实现准确检测，以及 2) 背景区域倾向于符合 H0，从而减少虚警。

通过端到端训练实现的这种一致性，使我们的测试在操作上有效且鲁棒：即使在低检测阈值下也能实现高精确率，如图 5 提供的精确率曲线所证实。关键的是，这允许我们在所有图像上使用一个低的固定阈值，避免了根据图像内容或训练条件手动调整它的需要。与现有方法（例如标准 YOLO，其阈值通常需要调整以防止虚警）相比，这是一个显著的操作优势，因为它使我们能够设置一个鲁棒的默认值，且虚警风险最小（因为我们的方法即使在低阈值下也表现出极少的虚警）。

在挑战性条件下更高的鲁棒性

评估方法的鲁棒性对于确保其在现实应用中的可靠性、准确性和安全性非常重要，因为现实应用中的数据通常是不完美、稀缺和不确定的。为了进一步评估 AA-YOLO 的优势，我们评估了其在各种挑战性条件下的鲁棒性。

少样本训练，图 6a 展示了当比较方法仅在 SIRST 数据集的 10%（即 25 张图像）上训练时获得的结果。我们所有的 AA-YOLO 变体（用深橙色条表示）都实现了强大的性能，接近使用完整数据集获得的性能。在节俭设置下的这种鲁棒性源于我们明确使用背景信息来区分目标像素，这有助于补偿标注数据的缺乏。相比之下，DNANet 和 EFLNet 虽然表现相当不错，但未能达到我们 AA-YOLO 变体的性能，而 YOLO 基线则表现更差。

局限性与展望

虽然我们的方法非常适合检测意外和罕见的事件，但在检测大而多的目标时存在局限性。如图 9 所示，与 SOTA 方法相比，AA-YOLO 在 VEDAI 数据集中倾向于对大而多的飞机检测不足。这一结果与理论预期一致：此类目标不再符合相对于背景的统计异常条件，因此不在我们基于异常的检测策略的范围内。虽然统计检验依赖于简化假设，但正如我们的消融研究和迁移场景所示，它在实践中实现了鲁棒的性能，并避免了对虚假模式的过拟合。更复杂的概率建模留作未来工作。

结论

在本文中，我们提出了 AA-YOLO，一种简单而有效的方法来改进红外图像中小目标的检测。我们的方法涉及将统计异常检验直接集成到 YOLO 型网络的检测头中，从而能够将目标检测为与背景分布的偏差。我们的方法不仅改进了任何用于小目标检测的 YOLO 检测器，而且在两个广泛使用的 IRSTD 基准测试上取得了 SOTA 结果。最后但同样重要的是，我们的 AA-YOLO 展示了在少样本训练中尤为令人印象深刻的鲁棒性（达到 SIRST 数据集全性能的 90%），并且我们方法的多功能性使其能够适应资源严重受限的各种场景。