【TMM2024】Frequency-Guided Spatial Adaptation for Camouflaged Object Detection

论文链接:https://arxiv.org/abs/2409.12421

这个论文研究 Camouflaged Object Detection (COD)问题,作者认为,使用 pretrained foundation model 可以改进COD的准确率,但是当前的 adaptor 大多学习空间特征,对于纹理的细节变化缺乏适应性。因此,作者考虑在 adaptor 中加入频率域信息,论文的主要工作为设计了一个频率引导的空间注意模块( frequency-guided spatial attention module),使预训练的基础模型从空间域适应,同时由自适应调整的频率分量引导,更多地关注伪装区域。

模型的总体框架如下图所示,骨干是预训练的VIT模型,同时有两个模块做为adaptor进行微调(1)frequencybased nuances mining (FBNM);(2) frequency-based feature enhancement (FBFE)。

从图中可以看出,FBNM模块用于patch embedding之后,多使用卷积,获取目标与背景的细微差别。FBFE模块中使用很多cross-attention,作者解释可以获取一般知识和与任务相关的知识。

两个模块中都使用了Frequency-Guided Spatial Attention (FGSAttn),结构如下图所示。核心思路是把FFT变换以后的频率特征,拆分为一个个独立的 patch,给各个 patch 添加注意力。作者认为这样可以更好的关注目标。

其它部分可以参考作者论文,这里不过多介绍。

相关推荐
意图共鸣16 分钟前
意图共鸣科技《认知智能白皮书》——感知与执行分离:认知架构(CA)如何重塑大模型底层结构
人工智能·架构
等一个人的@18 分钟前
让数据自己开口:数睿通智库新增智能问数模块
人工智能·自然语言处理
ZGi.ai19 分钟前
人工审查节点:让自动化工作流多一步人工把关
运维·人工智能·自动化·人机协同·智能体工作流·人工审查
王莎莎-MinerU1 小时前
MinerU 深度技术解析:从架构原理到生产部署的全面指南
css·人工智能·自然语言处理·架构·ocr·个人开发
盘古信息IMS1 小时前
盘古信息IMS V6 8.0重磅发布:以薪火AI数智平台点燃离散制造数智化引擎
大数据·人工智能·制造
weilaieqi11 小时前
从音响制造到AI家庭娱乐生态:不见不散AI智能K歌音响亮相第二十届深圳国际金融博览会
人工智能·制造·娱乐
企服AI产品测评局1 小时前
Agent适配信创环境实测:企业级自动化如何实现国产操作系统与数据库全兼容?
运维·数据库·人工智能·ai·chatgpt·自动化
Jiude1 小时前
AI 写代码太快之后,团队协作反而更难了
人工智能·架构·github
12点一刻2 小时前
Superpowers — AI 驱动的软件工程方法论框架
人工智能·软件工程
EasyCVR2 小时前
国标GB28181视频监控平台EasyCVR行业解决方案深度解读——雪亮工程、智慧城市与智慧交通
人工智能·音视频·智慧城市