【TMM2024】Frequency-Guided Spatial Adaptation for Camouflaged Object Detection

论文链接:https://arxiv.org/abs/2409.12421

这个论文研究 Camouflaged Object Detection (COD)问题,作者认为,使用 pretrained foundation model 可以改进COD的准确率,但是当前的 adaptor 大多学习空间特征,对于纹理的细节变化缺乏适应性。因此,作者考虑在 adaptor 中加入频率域信息,论文的主要工作为设计了一个频率引导的空间注意模块( frequency-guided spatial attention module),使预训练的基础模型从空间域适应,同时由自适应调整的频率分量引导,更多地关注伪装区域。

模型的总体框架如下图所示,骨干是预训练的VIT模型,同时有两个模块做为adaptor进行微调(1)frequencybased nuances mining (FBNM);(2) frequency-based feature enhancement (FBFE)。

从图中可以看出,FBNM模块用于patch embedding之后,多使用卷积,获取目标与背景的细微差别。FBFE模块中使用很多cross-attention,作者解释可以获取一般知识和与任务相关的知识。

两个模块中都使用了Frequency-Guided Spatial Attention (FGSAttn),结构如下图所示。核心思路是把FFT变换以后的频率特征,拆分为一个个独立的 patch,给各个 patch 添加注意力。作者认为这样可以更好的关注目标。

其它部分可以参考作者论文,这里不过多介绍。

相关推荐
郝学胜-神的一滴几秒前
B站:从二次元到AI创新孵化器的华丽转身 | Google Cloud峰会见闻
开发语言·人工智能·算法
千流出海4 分钟前
冬季风暴考验因AI数据中心而紧张的电网系统
人工智能
安科瑞小许7 分钟前
能碳管理平台:园区绿色转型的“智慧中枢”
大数据·人工智能·信息可视化·能源·双碳·光伏·零碳园区
AC赳赳老秦8 分钟前
R语言数据分析:DeepSeek辅助生成统计建模代码与可视化图表
开发语言·人工智能·jmeter·数据挖掘·数据分析·r语言·deepseek
算法&大模型备案-考拉8 分钟前
算法备案中不按要求履行算法备案服务会怎样?
人工智能·aigc·算法备案·不做算法备案会怎样·深度合成服务算法备案·深度合成算法备案·不做算法备案的处罚
雄狮少年11 分钟前
AI Agent Workflow基类及实现类,快速实现一个react agent,可直接运行
人工智能·windows·react.js
roman_日积跬步-终至千里11 分钟前
【计算机视觉-作业1】图像分类:两层神经网络进一步提高分类精度
神经网络·计算机视觉·分类
子夜江寒11 分钟前
OpenCV 学习:从光流跟踪到艺术风格迁移
opencv·学习·计算机视觉
Momentary_SixthSense16 分钟前
一篇文章讲清Function Calling、Mcp、Agent
人工智能
StarChainTech16 分钟前
打造火爆的线上推币机APP:一站式合规娱乐解决方案
大数据·人工智能·物联网·小程序·娱乐·软件需求·共享经济