【CVPR 2025】SET:Spectral Enhancement for Tiny Object Detection

论文作者:Huixin Sun, Runqi Wang, Yanjing Li

Linlin Yang, Shaohui Lin, Xianbin Cao, Baochang Zhang

发布期刊:CVPR

发布年份:2025

文章目录

  • 摘要
  • 论文创新点
  • 方法
    • [HBS(Hierarchical Background Smoothing)分层背景平滑处理](#HBS(Hierarchical Background Smoothing)分层背景平滑处理)
    • [API(Adversarial Perturbation Injection​)利用对抗扰动增强目标区域特征显著性](#API(Adversarial Perturbation Injection)利用对抗扰动增强目标区域特征显著性)
  • 实验
  • 结论

摘要

深度学习极大地推动了目标检测领域的发展。然而,小目标检测(TOD)仍然是一个具有挑战性的问题。本论文提供了一种新的分析方法,通过频域中基于遮挡的归因分析来研究TOD挑战。我们观察到,小目标在特征编码后变得不够清晰,并且可以从高频信息的移除中获益。在本文中,提出了一种名为小目标检测光谱增强(SET)的新方法,该方法在异构架构中放大小目标的频率特征。SET包含两个模块。分层背景平滑(HBS)模块通过自适应平滑操作抑制背景中的高频噪声。对抗性扰动注入(API)模块利用对抗性扰动来提高关键区域的特征显著性,并在训练过程中促进目标特征的细化。在四个数据集上的大量实验证明了方法的有效性。特别是,在AI-TOD数据集上,SET将现有技术RFLA的AP提升了3.2%。

论文创新点

  1. 从频谱角度进行了基于特征级遮挡的归因分析,以研究小目标检测(TOD)挑战,结果表明小目标更易受高频噪声影响。我们通过为前景和背景特征细化设计异构架构,引入了一种用于小目标检测的频谱增强方案(SET)。
  2. 为TOD任务设计了两个新模块。HBS模块通过自适应平滑操作抑制背景中的高频噪声。API模块利用对抗性扰动来提高关键区域的特征显著性,并在训练过程中促进对象特征的细化。
  3. 大量结果表明,我们的SET大幅提升了知名基线和现有技术的性能。

方法

上图为基于FCOS框架的所提SET方法概述。红色虚线表示生成对抗性扰动。HBS模块可通过尺度平滑操作抑制背景中的高频噪声。API模块利用对抗性扰动提高关键区域的特征显著性,并通过对抗训练促进鲁棒的特征表示。

HBS(Hierarchical Background Smoothing)分层背景平滑处理

论文发现:高频信息主要来自背景,如果直接删除高频信息,会损失目标边缘信息

因此作者提出:只对背景区域进行频谱平滑,以抑制高频噪声,同时保持目标区域的特征完整。

HBS的核心公式为:

其中 Pi 表示第 i 层FPN特征,Pi​∈RC×H×W,输出的 PiE 为增强后的特征。M为利用 GT bounding box 生成的二进制前景掩码,¬M为M的补集(1-M),M​∈R1×H×W

通过 mask 将特征分解为前景特征 Pifg 和背景特征 Pibg ,⊙表示逐元素乘法:

HBS的核心在于:

Fr​=WrPibg ​表示通道降维,输出 Fr​∈RrC/r×H×W,再使用 σ=ReLU 线性激活,最后进行通道恢复 We,最后加入残差链接

API(Adversarial Perturbation Injection​)利用对抗扰动增强目标区域特征显著性

API的核心公式:

Pi~~ L cls​ 代表 loss 对 feature 的梯度,分母部分表示L2 norm(仅保留方向),目的是将梯度归一化,ρ ∈ 0.1 , 1为扰动强度,由公式计算出最终扰动 ϵi ,最后进行扰动加入特征:

​论文方法还加入了多任务扰动融合以及API辅助损失,公式依次如下:


实验

在AI-TOD数据集上使用不同框架的结果对比表格

MS COCO上的检测性能。注意,模型在COCO train2017上训练,并在COCO val2017上验证。

消融实验

结论

本文提出了一种用于小目标的频谱增强(SET)方法,该方法在异构架构中放大小目标的频率特征。SET包含两个模块。分层背景平滑(HBS)模块通过自适应平滑操作抑制背景中的高频噪声。对抗性扰动注入(API)模块利用对抗性扰动在训练过程中促进目标特征的细化。在四个数据集上进行的大量实验证明了其有效性。

相关推荐
IT_陈寒1 小时前
SpringBoot自动配置的坑,我的API突然就404了
前端·人工智能·后端
笃行3501 小时前
从零到上线:用 EdgeOne Makers + CodeBuddy 搭一个「对账核对员」AI Agent
人工智能
用户6856326208692 小时前
Claude Code 乱猜字段名?我给它写了一个"数据库查询约束 Skill"
人工智能
你_好2 小时前
# 给你的产品嵌入一个「会操作界面的 AI 助手」
人工智能
ShallWeL2 小时前
【机器学习】(3)—— 线性回归:梯度下降
人工智能·机器学习
陈广亮2 小时前
Prompt、Context、Harness、Agentic:LLM 应用四层嵌套结构,搞清自己卡在哪一层
人工智能
刺猬的温驯2 小时前
Flow Matching 训练的输入分布问题:从 VAE Latent 统计性质到归一化工程实践——以 VoxFlash-TTS 为例
人工智能·语音合成·tts
机器之心2 小时前
近80年后,埃尔德什经典「拉姆齐数下界」,被三位中国学者首次指数级改进
人工智能·openai
机器之心2 小时前
Nvidia都在点赞的LoopWM世界模型,竟然来自一家中国初创FaceMind?
人工智能·openai
美团技术团队3 小时前
LongCat 开源 VitaBench 2.0:长期动态智能体基准新标杆
人工智能·算法