【TMM2024】Frequency-Guided Spatial Adaptation for Camouflaged Object Detection

论文链接:https://arxiv.org/abs/2409.12421

这个论文研究 Camouflaged Object Detection (COD)问题,作者认为,使用 pretrained foundation model 可以改进COD的准确率,但是当前的 adaptor 大多学习空间特征,对于纹理的细节变化缺乏适应性。因此,作者考虑在 adaptor 中加入频率域信息,论文的主要工作为设计了一个频率引导的空间注意模块( frequency-guided spatial attention module),使预训练的基础模型从空间域适应,同时由自适应调整的频率分量引导,更多地关注伪装区域。

模型的总体框架如下图所示,骨干是预训练的VIT模型,同时有两个模块做为adaptor进行微调(1)frequencybased nuances mining (FBNM);(2) frequency-based feature enhancement (FBFE)。

从图中可以看出,FBNM模块用于patch embedding之后,多使用卷积,获取目标与背景的细微差别。FBFE模块中使用很多cross-attention,作者解释可以获取一般知识和与任务相关的知识。

两个模块中都使用了Frequency-Guided Spatial Attention (FGSAttn),结构如下图所示。核心思路是把FFT变换以后的频率特征,拆分为一个个独立的 patch,给各个 patch 添加注意力。作者认为这样可以更好的关注目标。

其它部分可以参考作者论文,这里不过多介绍。

相关推荐
竣雄10 小时前
计算机视觉:原理、技术与未来展望
人工智能·计算机视觉
救救孩子把10 小时前
44-机器学习与大模型开发数学教程-4-6 大数定律与中心极限定理
人工智能·机器学习
Rabbit_QL11 小时前
【LLM评价指标】从概率到直觉:理解语言模型的困惑度
人工智能·语言模型·自然语言处理
呆萌很11 小时前
HSV颜色空间过滤
人工智能
roman_日积跬步-终至千里11 小时前
【人工智能导论】02-搜索-高级搜索策略探索篇:从约束满足到博弈搜索
java·前端·人工智能
FL162386312911 小时前
[C#][winform]基于yolov11的淡水鱼种类检测识别系统C#源码+onnx模型+评估指标曲线+精美GUI界面
人工智能·yolo·目标跟踪
爱笑的眼睛1111 小时前
从 Seq2Seq 到 Transformer++:深度解构与自构建现代机器翻译核心组件
java·人工智能·python·ai
小润nature12 小时前
AI时代对编程技能学习方式的根本变化(1)
人工智能
AI即插即用13 小时前
即插即用系列 | ECCV 2024 WTConv:利用小波变换实现超大感受野的卷积神经网络
图像处理·人工智能·深度学习·神经网络·计算机视觉·cnn·视觉检测
愚公搬代码13 小时前
【愚公系列】《扣子开发 AI Agent 智能体应用》003-扣子 AI 应用开发平台介绍(选择扣子的理由)
人工智能