即插即用系列 | CVPR 2025 FDConv:频域动态卷积,打破密集预测任务的参数效率瓶颈

论文标题:Frequency Dynamic Convolution for Dense Image Prediction

论文原文 (Paper)https://openaccess.thecvf.com/content/CVPR2025/html/Chen_Frequency_Dynamic_Convolution_for_Dense_Image_Prediction_CVPR_2025_paper.html
代码 (code)https://github.com/Linwei-Chen/FDConv


GitHub 仓库链接(包含论文解读及即插即用代码)https://github.com/AITricks/AITricks
哔哩哔哩视频讲解https://space.bilibili.com/57394501?spm_id_from=333.337.0.0

目录

      • [1. 核心思想](#1. 核心思想)
      • [2. 背景与动机](#2. 背景与动机)
        • [2.1 文本背景总结](#2.1 文本背景总结)
        • [2.2 动机图解分析](#2.2 动机图解分析)
      • [3. 主要创新点](#3. 主要创新点)
      • [4. 方法细节](#4. 方法细节)
        • [4.1 整体网络架构](#4.1 整体网络架构)
        • [4.2 核心创新模块详解](#4.2 核心创新模块详解)
        • [4.3 理念与机制总结](#4.3 理念与机制总结)
        • [4.4 图解总结](#4.4 图解总结)
      • [5. 即插即用模块的作用](#5. 即插即用模块的作用)
      • [6. 实验部分简单分析](#6. 实验部分简单分析)
      • [7. 获取即插即用代码关注 【AI即插即用】](#7. 获取即插即用代码关注 【AI即插即用】)

1. 核心思想

本文针对现有动态卷积(Dynamic Convolution, 如 CondConv, ODConv)存在的参数冗余核相似性高 的问题,提出了一种名为 FDConv (Frequency Dynamic Convolution) 的新型算子。其核心思想是将卷积核的生成过程转移到傅里叶频域 进行。通过在频域中学习一个固定的参数预算(Parameter Budget),并利用核空间调制 (KSM)频带调制 (FBM) 两种机制动态调整频率响应,最后通过逆傅里叶变换(IFFT)还原为空间卷积核。这种方法在大幅降低参数量的同时,显著提升了卷积核的频率多样性和表达能力。


2. 背景与动机

2.1 文本背景总结

动态卷积(Dynamic Conv)通过根据输入图像动态聚合多个并行卷积核(Experts),显著提升了模型的容量。然而,现有方法面临两个主要痛点:

  1. 参数爆炸 :参数量随卷积核数量 K K K 线性增长( K × P a r a m s K \times Params K×Params),导致模型臃肿。
  2. 核同质化(High Similarity):研究发现,训练好的多个动态核在空间上往往非常相似,这意味着大量的参数被浪费在了重复的特征提取上,并未真正提供多样性的"专家知识"。
2.2 动机图解分析

看图说话与痛点分析

  • 现有方法的局限性(左图) :传统的 DY-Conv 直接在空间域学习 K K K 个完整的卷积核。可视化显示,这些核的频率响应(频谱图)非常相似,说明它们都在关注类似的图像成分(比如都只看低频轮廓),缺乏互补性。
  • FDConv 的突破(右图) :FDConv 不直接存储空间核,而是存储频域系数。它将频域划分为不同的频带组(Frequency Groups),每个组负责不同的频率成分(互不相交)。通过组合这些正交的频率成分,FDConv 能够以极低的代价构建出形态各异、功能互补的空间卷积核,完美解决了"同质化"问题。

3. 主要创新点

  1. 频域参数预算 (Frequency Parameter Budget):首创性地在频域定义卷积参数,利用傅里叶变换的性质,通过学习少量的频域系数来重构复杂的空间卷积核。
  2. 正交频率分组:将频域预算划分为互不相交的组(Disjoint Indices),确保生成的不同基核(Basis Kernels)在频谱上是正交互补的,最大化了特征提取的多样性。
  3. 双重调制机制
    • 核空间调制 (KSM):在空间域动态调整卷积核的幅度。
    • 频带调制 (FBM):在频域动态调整不同频段的权重。两者协同工作,赋予了卷积核强大的自适应能力。
  4. 极致的参数效率 :在保持甚至超越 SOTA 性能(如 ODConv)的前提下,参数量仅为传统动态卷积的 1/K 甚至更低。

4. 方法细节

4.1 整体网络架构

数据流详解

FDConv 是一个可以直接替换 nn.Conv2d 的即插即用模块,其内部数据流如下:

  1. 输入 (Input) :特征图 X X X。
  2. 注意力生成 (Attention Generation)
    • 利用全局平均池化(GAP)和全连接层(FC),从输入 X X X 中预测出两组动态系数:空间调制系数 α \alpha α频带调制系数 β \beta β
  3. 频域核构建 (Frequency Kernel Construction)
    • 预定义一个可学习的频域张量 W f W_f Wf(Parameter Budget)。
    • FBM 调制 :利用系数 β \beta β 对 W f W_f Wf 的不同频带进行加权增强或抑制。
  4. 逆傅里叶变换 (IFFT)
    • 将调制后的频域张量通过 IFFT 变换回空间域,得到一组基卷积核(Basis Kernels)。
  5. 空间核聚合与调制 (Spatial Aggregation & KSM)
    • KSM 调制 :利用系数 α \alpha α 对基卷积核进行空间层面的动态加权。
    • 将加权后的核聚合为一个最终的动态卷积核 W d y n a m i c W_{dynamic} Wdynamic。
  6. 卷积操作 :使用 W d y n a m i c W_{dynamic} Wdynamic 对输入 X X X 进行标准卷积,输出结果。
4.2 核心创新模块详解

模块 A:频域权重生成与分组 (Frequency Weight Generation)

  • 设计理念:利用 DFT 的共轭对称性,只需要存储一半的频域系数即可还原实数卷积核,节省一半参数。
  • 分组策略 :将总的参数预算切分为 G G G 组,每组只负责频谱中的一部分(例如一组负责低频,一组负责高频)。这强制每个"专家"核专注于不同的纹理特征。

模块 B:双重调制 (KSM & FBM)

  • KSM (Kernel Spatial Modulation)
    • 作用于空间域
    • 类似于 SE-Net 的通道注意力,但这里是对卷积核本身进行加权。它决定了"使用哪个基核"。
  • FBM (Frequency Band Modulation)
    • 作用于频域
    • 这是一个细粒度的控制。它允许网络根据输入图像的模糊程度或噪声水平,动态地增强高频(细节)或抑制高频(去噪)。
  • 协同工作:FBM 调整核的"内涵"(频率成分),KSM 调整核的"强度"(组合方式),两者实现了对卷积核性质的全方位控制。
4.3 理念与机制总结

FDConv 的核心理念是 "频域稀疏性与正交性"

  • 机制 :它认为在空间域学习 N N N 个相似的 3 × 3 3 \times 3 3×3 矩阵是浪费的。不如在频域学习几个正交的"波",然后通过组合这些波来生成千变万化的卷积核。
  • 公式解读 : W = IFFT ( FBM ( W f ) ) ⊙ α W = \text{IFFT}(\text{FBM}(W_f)) \odot \alpha W=IFFT(FBM(Wf))⊙α。
4.4 图解总结

回到动机图解

  • IFFT 机制 解决了参数爆炸问题,因为频域参数通常比空间域参数更紧凑且易于压缩。
  • 频率分组 解决了核同质化问题。由于每组基核来源于不同的频带,它们在物理上就不可能相似,从而保证了特征提取的多样性(Diversity)。

5. 即插即用模块的作用

FDConv 设计为通用的卷积算子,具有极广的适用性:

  • 适用场景
    • 密集预测任务:语义分割、目标检测、深度估计。这些任务对多尺度和多频率特征非常敏感。
    • 底层视觉任务:图像去噪、去雨、超分辨率。FBM 能够动态调节滤波器的通带,非常适合处理频率相关的退化。
  • 具体应用
    • 替换 ResNet/Swin 中的 Conv :将 ResNet 中的 3 × 3 3 \times 3 3×3 卷积替换为 FDConv,可以直接获得精度提升。
    • 轻量化模型设计:在 MobileNet 或 EfficientNet 中使用 FDConv,可以在不增加参数量的前提下,大幅提升模型的表达能力(Capacity)。

6. 实验部分简单分析

论文在 ADE20K (分割) , COCO (检测) , SIDD (去噪) 等多个数据集上进行了验证。

  1. 语义分割 (Semantic Segmentation)

    • 在 ADE20K 上,使用 ResNet-50 作为 Backbone,FDConv 相比标准的 ResNet 提升了 +3.4 mIoU ,相比 ODConv 提升了 +1.2 mIoU
    • 关键点 :FDConv 的参数量仅为 ODConv 的 1/4 甚至更少,实现了"少马跑快车"。
  2. 目标检测 (Object Detection)

    • 在 COCO 数据集上,FDConv 在 Mask R-CNN 框架下带来了显著的 AP 提升,证明了其在实例级任务上的有效性。
  3. 图像去噪 (Image Denoising)

    • 在 SIDD 数据集上,FDConv 展现了强大的频率适应能力,PSNR 指标优于传统的动态卷积方法。
    • 可视化 :去噪后的图像纹理保留更好,说明 FBM 成功地在去噪(低通滤波)和保边(高频保留)之间找到了动态平衡。

总结:FDConv 是一篇极具洞察力的论文。它跳出了空间域"堆参数"的内卷怪圈,利用经典的信号处理理论(FFT)为深度学习算子注入了新的活力。对于追求极致效率和模型性能的 CV 工程师来说,这绝对是一个值得尝试的"黑科技"算子。

到此,所有的内容就基本讲完了。如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。

7. 获取即插即用代码关注 【AI即插即用】

相关推荐
呆萌很4 小时前
NVIDIA CUDA Toolkit 安装
人工智能
机器学习之心4 小时前
科研绘图 | TCN-LSTM时间卷积神经网络结合长短期记忆神经网络模型结构图
神经网络·tcn-lstm
天庭鸡腿哥4 小时前
Vivo出品,干趴付费!
人工智能·语音识别
code 旭4 小时前
神经网络+激活函数+损失函数 三合一速查表
人工智能·深度学习·神经网络
laplace01234 小时前
讲清楚 Prompt, Agent, MCP 是什么+大模型测评流程
人工智能·语言模型·prompt·transformer
CoovallyAIHub4 小时前
摄像头如何“看懂”你的手势?手势识别实现新人机交互
深度学习·算法·计算机视觉
Gofarlic_oms14 小时前
区块链存证节点搭建:金融行业审计证据链构建指南
运维·人工智能·金融·数据挖掘·区块链·需求分析·devops
AI科技星4 小时前
张祥前统一场论:空间位移条数概念深度解析
数据结构·人工智能·经验分享·算法·计算机视觉
AI浩4 小时前
深度任意全景:用于全景深度估计的基础模型
人工智能·深度学习·目标跟踪