【TMM2024】Frequency-Guided Spatial Adaptation for Camouflaged Object Detection

论文链接:https://arxiv.org/abs/2409.12421

这个论文研究 Camouflaged Object Detection (COD)问题,作者认为,使用 pretrained foundation model 可以改进COD的准确率,但是当前的 adaptor 大多学习空间特征,对于纹理的细节变化缺乏适应性。因此,作者考虑在 adaptor 中加入频率域信息,论文的主要工作为设计了一个频率引导的空间注意模块( frequency-guided spatial attention module),使预训练的基础模型从空间域适应,同时由自适应调整的频率分量引导,更多地关注伪装区域。

模型的总体框架如下图所示,骨干是预训练的VIT模型,同时有两个模块做为adaptor进行微调(1)frequencybased nuances mining (FBNM);(2) frequency-based feature enhancement (FBFE)。

从图中可以看出,FBNM模块用于patch embedding之后,多使用卷积,获取目标与背景的细微差别。FBFE模块中使用很多cross-attention,作者解释可以获取一般知识和与任务相关的知识。

两个模块中都使用了Frequency-Guided Spatial Attention (FGSAttn),结构如下图所示。核心思路是把FFT变换以后的频率特征,拆分为一个个独立的 patch,给各个 patch 添加注意力。作者认为这样可以更好的关注目标。

其它部分可以参考作者论文,这里不过多介绍。

相关推荐
武子康11 分钟前
调查研究-203 SpaceX IPO 总览:先别急着讲故事,先把发行事实和信息边界立住
人工智能·openai·agent
IT_陈寒23 分钟前
Redis内存飙升的锅,原来是我没搞懂这个过期策略
前端·人工智能·后端
东坡肘子2 小时前
SPI 加入 Apple,Swift 迈向自举 -- 肘子的 Swift 周报 #142
人工智能·swiftui·swift
小和尚同志10 小时前
AI 自动化测试探索(二):Chrome-devtools MCP
人工智能·e2e·aigc
冬奇Lab12 小时前
Workflow 系列(02):设计范式——四层架构、三种 Context 传递模式与确认门设计
人工智能·agent·工作流引擎
冬奇Lab12 小时前
每日一个开源项目(第145篇):Trellis - 把项目记忆、规范和任务上下文持久化进代码仓库
人工智能·开源·资讯
有道AI情报局12 小时前
Harness即产品
人工智能·agent
罗西的思考13 小时前
机器人 / 强化学习】HIL-SERL:人类在环驱动的具身智能进化框架
人工智能·算法·机器学习
IT_陈寒14 小时前
SpringBoot自动配置的坑,我的API突然就404了
前端·人工智能·后端