CVPR 2025 | 频率动态卷积(FDConv):以固定参数预算实现频率域自适应,显著提升视觉任务性能

导读

本文提出频率动态卷积(FDConv) ,通过在傅里叶域构建频率多样化权重,以固定参数预算显著提升模型频率适应性。该方法在目标检测、分割等任务中性能卓越,仅增加3.6M参数即可优于现有动态卷积方法,且易于集成至多种网络架构。>>更多资讯可加入CV技术群获取了解哦

论文标题:

Frequency Dynamic Convolution for Dense Image Prediction

论文 链接

arxiv.org/pdf/2503.18...** 址: github.com/Linwei-Chen...

卷积作为 ConvNets 的核心操作,推动了计算机视觉领域数十年的发展。它对于捕获局部模式和构建层次化表示至关重要,并且在现代架构中仍然是基础性的。在标准卷积成功的基础上,动态卷积(DY-Conv)提供了一种更自适应和高效的方法。与具有固定权重的标准卷积不同,DY-Conv 使用多个由注意力模块组合的并行权重,允许以最少的额外计算进行样本特定的权重适应。

然而,我们在图 1 中的分析表明,传统的动态卷积在其并行权重中缺乏频率响应多样性。如图 1(a) 所示,这些权重表现出高度相似的频率响应,而图 1(c) 中的 t-SNE 可视化表明ODConv中的滤波器紧密聚集在一起。尽管参数数量显著增加(例如,增加了 4 倍),但这种有限的频率多样性降低了模型自适应捕获频率信息的能力。例如,提取低频分量有助于抑制噪声,而高频分量捕获细节和边界,这对于前景-背景区分至关重要。

为了应对这些限制,我们提出了频率动态卷积(FDConv) ,如图 2 所示。它旨在增强频率适应性,而不会产生过多的参数开销。我们的方法基于三个核心模块:傅里叶不相交权重、核空间调制和频带调制

与传统方法在空间域中学习权重不同,傅里叶不相交权重 (FDW) 通过在学习傅里叶域中的频谱系数来构建核权重。这些系数被划分为基于频率的组,每组具有一组不相交的傅里叶索引。然后对这些组应用离散傅里叶逆变换(iDFT),将其转换为空间权重。这种不相交分组使每个权重表现出不同的频率响应(如图 1(b) 所示),确保了学习到的权重之间的高度多样性(也如图 1(d) 所示)。

核空间调制(KSM) 通过在核内空间级别精确调整每个滤波器的频率响应来增强灵活性。通过结合局部和全局通道信息,KSM 生成一个密集的调制值矩阵,用于精细调整每个单独的权重元素。这种细粒度控制使 FDConv 能够动态适应每个滤波器元素,从而允许在整个核范围内调整频率响应。

频带调制 (FBM) 在频域中将权重分解为不同的频带,从而实现空间变化的频率调制。它允许权重的每个频带在空间位置上独立调整。与传统的动态卷积在空间维度上应用固定频率响应不同,FBM 将权重分解为不同的频带,并根据局部内容动态调制它们。这种设计使模型能够选择性地强调或抑制不同区域的频带,以空间变化的方式自适应地捕获不同的频率信息。

此外,与先前的工作将参数成本增加 n 倍(其中 n 是权重数量,通常 n < 10)不同,我们的 FDConv 保持固定的参数预算,同时通过将傅里叶域中的参数划分为不相交的基于频率的组来生成大量频率多样化的权重核(n > 10)。这种设计允许模型有效地学习具有不同频率响应的权重,而不会增加参数成本。

在目标检测、实例分割、语义分割和图像分类上的大量实验验证了 FDConv 的有效性。例如,当应用于 ResNet-50 时,FDConv 仅增加 +3.6M 参数即可实现卓越性能,优于先前需要大幅增加参数预算的方法(例如,CondConv +90M, DY-Conv +75.3M, ODConv +65.1M, KW +76.5M)[31, 32, 63, 73]。FDConv 可以无缝集成到各种架构中,包括 ConvNeXt 和 Swin Transformer,在其中它替代了线性层(作为 1×1 卷积),提供了一个多功能且高效的解决方案。

  • 我们使用频率分析对动态卷积进行了全面探索。我们的发现表明,传统动态卷积方法的参数在学习到的并行权重中表现出频率响应的高度同质性,导致高参数冗余和有限的适应性。
  • 我们引入了傅里叶不相交权重(FDW)、核空间调制(KSM)和频带调制(FBM)策略。FDW 在不增加参数成本的情况下构建具有多样化频率响应的多个权重,KSM 通过逐元素调整权重来增强表示能力,FBM 通过以空间变化的方式精确提取频带来改进卷积。
  • 我们证明了我们的方法可以轻松集成到现有的 ConvNets 和视觉 Transformer 中。在分割任务上的综合实验表明,它超越了先前最先进的动态卷积方法,仅需少量增加参数,持续证明了其有效性。

方法

提出的频率动态卷积(FDConv)框架的概述如图2所示。其中两个关键策略:核空间调制和频带调制,这两个策略分别旨在核空间域和频域中充分利用FDConv的频率适应性。

实验数据集和指标

我们在具有挑战性的语义分割数据集上评估我们的方法,包括Cityscapes 和ADE20K,使用平均交并比(mIoU)进行分割评估,使用平均精度(AP)进行目标检测和实例分割评估。

实现细节。我们遵循UPerNet、Mask2Former、MaskDINO、Swin Transformer和ConvNeXt原始论文中的设置。在COCO上,我们遵循标准实践,训练检测和分割模型12个周期(1×调度)。我们根据经验将FDConv的权重数量设置为64。

主要结果

在本节中,我们使用COCO、ADE20K和Cityscapes等标准基准测试,在一系列任务上评估我们的FDConv,包括目标检测、实例分割和语义分割。

我们将FDConv与最先进的动态卷积方法进行比较,包括CondConv、DY-Conv 、DCD、ODConv和KW 。实验表明,FDConv不仅在检测和分割任务上实现了最高性能,而且大大减少了参数开销。此外,FDConv具有高度通用性,它可以轻松地与最先进的ConvNet模型(如ConvNeXt )结合,并应用于Transformer架构,如Swin-T 、Mask2Former和MaskDINO。实验结果表明,FDConv相对于传统竞争对手和最先进的基线都取得了显著的改进。

  • 目标检测

表1显示了使用各种动态卷积模块的Faster R-CNN获得的结果。我们的FDConv模块尽管仅增加了+3.6M参数和+1.8G FLOPs,却实现了39.4的APbox,比基线提高了2.2%,并且优于需要显著更高参数预算的CondConv、DY-Conv、DCD和ODConv。FDConv不仅在准确性方面超越了其他方法,而且以最小的计算 footprint 实现了这一点,使其成为目标检测任务的高效增强。

  • 实例分割

我们使用Mask R-CNN作为基础模型,进一步评估FDConv。FDConv实现了42.4的APbox和38.6的APmask,超越或匹配了最近的高性能方法,如ODConv和KW。值得注意的是,虽然KW实现了略高的分割性能,但它带来了4倍的参数成本增加(+76.5M),而FDConv仅增加了3.6M。

  • 语义分割

如表2所示,FDConv实现了最高的mIoU分数,单尺度(SS)mIoU为43.8。值得注意的是,与ODConv (131M)和KW(141M)相比,FDConv以更少的附加参数(总计70M)实现了这一性能,突显了其在实现卓越分割质量的同时的参数效率。

  • 与先进架构的结合

此外,我们使用COCO 在目标检测和实例分割任务上测试FDConv,以检验其跨架构的适用性。表3表明,当应用于ConvNeXt和Swin Transformer骨干网络时,FDConv的性能优于其他方法,包括KW。使用ConvNeXt-T 实现了45.2的APbox,使用Swin-T实现了44.5的APbox,同时APmask分数也有所提高。这些结果强调了FDConv在各种架构上一致的泛化能力。

  • 与重型模型的结合

为了评估我们的FDConv与先进架构的适应性,我们将FDConv纳入最先进的Mask2Former和MaskDINO框架中。表4显示,带有FDConv的Mask2Former-ResNet-50在Cityscapes上实现了+1.0的mIoU提升(从79.4到80.4)。在ADE20K上,表5突出显示,使用FDConv后,Mask2Former-Swin-B实现了+1.0的mIoU提升(从53.9到54.9),而MaskDINO-Swin-L实现了+0.5的mIoU提升(从56.6到57.2)。这些一致的收益表明FDConv可以有效地增强重型架构。

在Coovally平台上汇聚了国内外开源社区超1000+热门模型 ,覆盖YOLO系列、Mask R-CNN等主流视觉算法。同时集成300+公开数据集,涵盖图像分类、目标检测、语义分割等场景,一键下载即可投入训练,彻底告别"找模型、配环境、改代码"的繁琐流程!

!!点击下方链接,立即体验Coovally!!

平台链接: www.coovally.com

Coovally平台还可以直接查看"实验日志"。提供直观的可视化训练界面,清晰设置参数,监控训练过程(Loss, mAP等指标实时可视化)。

无论你是算法新手还是资深工程师,Coovally以极简操作与强大生态,助你跳过技术鸿沟,专注创新与落地。访问官网,开启你的零代码AI开发之旅!

结论

我们介绍了频率动态卷积(FDConv) ,它在不增加参数开销的情况下增强了并行权重的频率适应性。通过结合傅里叶不相交权重(FDW)、核空间调制(KSM)和频带调制(FBM) ,FDConv解决了现有动态卷积方法的局限性,包括并行权重中受限的频率多样性和高参数成本。

我们的分析表明,FDConv实现了更大的频率多样性,从而能够更好地跨空间和频域捕获特征。在目标检测、分割和分类上的大量实验证明,FDConv优于先前最先进的方法,并且与产生更高开销的其他方法相比,仅适度增加了参数成本。FDConv可以轻松集成到现有架构中,包括ConvNets和视觉Transformer,使其成为适用于广泛计算机视觉任务的多功能且高效的解决方案。我们希望我们的分析和发现能为构建更高效、更强大的视觉模型开辟新的方向。

相关推荐
mit6.8243 小时前
[rStar] 解决方案节点 | `BaseNode` | `MCTSNode`
人工智能·python·算法
普蓝机器人3 小时前
AutoTrack-IR-DR200底盘仿真详解:为教育领域打造的高效机器人学习实验平台
人工智能·学习·计算机视觉·机器人·移动机器人·三维仿真导航
赴3353 小时前
opencv 银行卡号识别案例
人工智能·opencv·计算机视觉·银行卡号识别
胡乱编胡乱赢3 小时前
在pycharm终端安装torch
ide·深度学习·pycharm·安装torch
格林威4 小时前
工业检测机器视觉为啥非用工业相机?普通相机差在哪?
人工智能·数码相机·yolo·计算机视觉·视觉检测·相机
晴空闲雲4 小时前
数据结构与算法-树和二叉树-二叉树的存储结构(Binary Tree)
数据结构·算法
索迪迈科技5 小时前
Flink Task线程处理模型:Mailbox
java·大数据·开发语言·数据结构·算法·flink
FairyGirlhub6 小时前
神经网络的初始化:权重与偏置的数学策略
人工智能·深度学习·神经网络
元亓亓亓6 小时前
LeetCode热题100--230. 二叉搜索树中第 K 小的元素--中等
算法·leetcode·职场和发展