【TMM2024】Frequency-Guided Spatial Adaptation for Camouflaged Object Detection

论文链接:https://arxiv.org/abs/2409.12421

这个论文研究 Camouflaged Object Detection (COD)问题,作者认为,使用 pretrained foundation model 可以改进COD的准确率,但是当前的 adaptor 大多学习空间特征,对于纹理的细节变化缺乏适应性。因此,作者考虑在 adaptor 中加入频率域信息,论文的主要工作为设计了一个频率引导的空间注意模块( frequency-guided spatial attention module),使预训练的基础模型从空间域适应,同时由自适应调整的频率分量引导,更多地关注伪装区域。

模型的总体框架如下图所示,骨干是预训练的VIT模型,同时有两个模块做为adaptor进行微调(1)frequencybased nuances mining (FBNM);(2) frequency-based feature enhancement (FBFE)。

从图中可以看出,FBNM模块用于patch embedding之后,多使用卷积,获取目标与背景的细微差别。FBFE模块中使用很多cross-attention,作者解释可以获取一般知识和与任务相关的知识。

两个模块中都使用了Frequency-Guided Spatial Attention (FGSAttn),结构如下图所示。核心思路是把FFT变换以后的频率特征,拆分为一个个独立的 patch,给各个 patch 添加注意力。作者认为这样可以更好的关注目标。

其它部分可以参考作者论文,这里不过多介绍。

相关推荐
发哥来了8 小时前
主流AI视频生成商用方案选型:关键维度与成本效益分析
大数据·人工智能
诗远Yolanda8 小时前
EI国际会议-通信技术、电子学与信号处理(CTESP 2026)
图像处理·人工智能·算法·计算机视觉·机器人·信息与通信·信号处理
智定义科技8 小时前
#智慧景区#景区票务综合管理平台:全渠道票务一体化管理新范式
人工智能·智慧文旅·智慧景区·票务系统·景区系统·景区票务系统开发·门票系统
yangguangwuyue8 小时前
Windows 下 CMake + OpenCV 编译乱码问题的定位与解决(Msbuild 乱码问题)
人工智能·windows·opencv
2501_941333108 小时前
【深度学习强对流天气识别】:基于YOLO11-C3k2-SCcConv模型的高效分类方法_2
人工智能·深度学习·分类
岑梓铭8 小时前
YOLO11深度学习一模型很优秀还是漏检怎么办,预测解决
人工智能·笔记·深度学习·神经网络·yolo·计算机视觉
龙亘川8 小时前
GB4599-2024 落地!汽车照明迎重大升级,自适应功能 + 辅助投射成安全新标配~
大数据·人工智能·安全·汽车
叫我:松哥8 小时前
基于YOLO深度学习算法的人群密集监测与统计分析预警系统,实现人群密集度的实时监测、智能分析和预警功能,支持图片和视频流两种输入方式
人工智能·深度学习·算法·yolo·机器学习·数据分析·flask
Non-existent9878 小时前
地理空间数据处理指南 | 实战案例+代码TableGIS
人工智能·python·数据挖掘
Dingdangcat868 小时前
驾驶行为识别▸方向盘握持与吸烟检测_YOLOv10n_LSCD_LQE模型详解
人工智能·yolo·目标跟踪