【TMM2024】Frequency-Guided Spatial Adaptation for Camouflaged Object Detection

论文链接:https://arxiv.org/abs/2409.12421

这个论文研究 Camouflaged Object Detection (COD)问题,作者认为,使用 pretrained foundation model 可以改进COD的准确率,但是当前的 adaptor 大多学习空间特征,对于纹理的细节变化缺乏适应性。因此,作者考虑在 adaptor 中加入频率域信息,论文的主要工作为设计了一个频率引导的空间注意模块( frequency-guided spatial attention module),使预训练的基础模型从空间域适应,同时由自适应调整的频率分量引导,更多地关注伪装区域。

模型的总体框架如下图所示,骨干是预训练的VIT模型,同时有两个模块做为adaptor进行微调(1)frequencybased nuances mining (FBNM);(2) frequency-based feature enhancement (FBFE)。

从图中可以看出,FBNM模块用于patch embedding之后,多使用卷积,获取目标与背景的细微差别。FBFE模块中使用很多cross-attention,作者解释可以获取一般知识和与任务相关的知识。

两个模块中都使用了Frequency-Guided Spatial Attention (FGSAttn),结构如下图所示。核心思路是把FFT变换以后的频率特征,拆分为一个个独立的 patch,给各个 patch 添加注意力。作者认为这样可以更好的关注目标。

其它部分可以参考作者论文,这里不过多介绍。

相关推荐
人工智能AI技术几秒前
GTC 2026首日:C#对接NVIDIA物理AI,工业仿真开发全流程
人工智能·c#
bst@微胖子1 分钟前
OpenCV 案例六【道路裂缝检测】
人工智能·opencv·计算机视觉
集芯微电科技有限公司1 分钟前
PC5204集成700V/7.5A 400mΩ增强型氮化镓GaN HEMT驱动器具有高功率密度运行
数据结构·人工智能·单片机·嵌入式硬件·神经网络·机器学习·生成对抗网络
熊猫钓鱼>_>2 分钟前
Puppeteer深度解析:Chrome自动化的艺术与实践
前端·人工智能·chrome·自动化·云计算·puppeteer·mcp
GIOTTO情2 分钟前
Infoseek字节探索舆情处置技术落地实战——以2026年3月连锁餐饮舆情事件为例
人工智能
bst@微胖子3 分钟前
OpenCV 案例五【动物识别】
人工智能·opencv·计算机视觉
熊猫钓鱼>_>4 分钟前
Playwright与Puppeteer实战教程:让AI拥有“看懂“网页的能力
人工智能·ai·puppeteer·playwright·jina·skills·agent skills
TDengine (老段)6 分钟前
TDengine IDMP 组态面板 —— 图元
大数据·数据库·人工智能·物联网·时序数据库·tdengine
进击ing小白7 分钟前
OpenCv之图像缩放翻转和拼接
人工智能·opencv·计算机视觉
小妖同学学AI7 分钟前
AI数字人,赋予教学新的生命力
人工智能