即插即用系列 | CVPR 2025 FDConv:频域动态卷积,打破密集预测任务的参数效率瓶颈

论文标题:Frequency Dynamic Convolution for Dense Image Prediction

论文原文 (Paper)https://openaccess.thecvf.com/content/CVPR2025/html/Chen_Frequency_Dynamic_Convolution_for_Dense_Image_Prediction_CVPR_2025_paper.html
代码 (code)https://github.com/Linwei-Chen/FDConv


GitHub 仓库链接(包含论文解读及即插即用代码)https://github.com/AITricks/AITricks
哔哩哔哩视频讲解https://space.bilibili.com/57394501?spm_id_from=333.337.0.0

目录

      • [1. 核心思想](#1. 核心思想)
      • [2. 背景与动机](#2. 背景与动机)
        • [2.1 文本背景总结](#2.1 文本背景总结)
        • [2.2 动机图解分析](#2.2 动机图解分析)
      • [3. 主要创新点](#3. 主要创新点)
      • [4. 方法细节](#4. 方法细节)
        • [4.1 整体网络架构](#4.1 整体网络架构)
        • [4.2 核心创新模块详解](#4.2 核心创新模块详解)
        • [4.3 理念与机制总结](#4.3 理念与机制总结)
        • [4.4 图解总结](#4.4 图解总结)
      • [5. 即插即用模块的作用](#5. 即插即用模块的作用)
      • [6. 实验部分简单分析](#6. 实验部分简单分析)
      • [7. 获取即插即用代码关注 【AI即插即用】](#7. 获取即插即用代码关注 【AI即插即用】)

1. 核心思想

本文针对现有动态卷积(Dynamic Convolution, 如 CondConv, ODConv)存在的参数冗余核相似性高 的问题,提出了一种名为 FDConv (Frequency Dynamic Convolution) 的新型算子。其核心思想是将卷积核的生成过程转移到傅里叶频域 进行。通过在频域中学习一个固定的参数预算(Parameter Budget),并利用核空间调制 (KSM)频带调制 (FBM) 两种机制动态调整频率响应,最后通过逆傅里叶变换(IFFT)还原为空间卷积核。这种方法在大幅降低参数量的同时,显著提升了卷积核的频率多样性和表达能力。


2. 背景与动机

2.1 文本背景总结

动态卷积(Dynamic Conv)通过根据输入图像动态聚合多个并行卷积核(Experts),显著提升了模型的容量。然而,现有方法面临两个主要痛点:

  1. 参数爆炸 :参数量随卷积核数量 K K K 线性增长( K × P a r a m s K \times Params K×Params),导致模型臃肿。
  2. 核同质化(High Similarity):研究发现,训练好的多个动态核在空间上往往非常相似,这意味着大量的参数被浪费在了重复的特征提取上,并未真正提供多样性的"专家知识"。
2.2 动机图解分析

看图说话与痛点分析

  • 现有方法的局限性(左图) :传统的 DY-Conv 直接在空间域学习 K K K 个完整的卷积核。可视化显示,这些核的频率响应(频谱图)非常相似,说明它们都在关注类似的图像成分(比如都只看低频轮廓),缺乏互补性。
  • FDConv 的突破(右图) :FDConv 不直接存储空间核,而是存储频域系数。它将频域划分为不同的频带组(Frequency Groups),每个组负责不同的频率成分(互不相交)。通过组合这些正交的频率成分,FDConv 能够以极低的代价构建出形态各异、功能互补的空间卷积核,完美解决了"同质化"问题。

3. 主要创新点

  1. 频域参数预算 (Frequency Parameter Budget):首创性地在频域定义卷积参数,利用傅里叶变换的性质,通过学习少量的频域系数来重构复杂的空间卷积核。
  2. 正交频率分组:将频域预算划分为互不相交的组(Disjoint Indices),确保生成的不同基核(Basis Kernels)在频谱上是正交互补的,最大化了特征提取的多样性。
  3. 双重调制机制
    • 核空间调制 (KSM):在空间域动态调整卷积核的幅度。
    • 频带调制 (FBM):在频域动态调整不同频段的权重。两者协同工作,赋予了卷积核强大的自适应能力。
  4. 极致的参数效率 :在保持甚至超越 SOTA 性能(如 ODConv)的前提下,参数量仅为传统动态卷积的 1/K 甚至更低。

4. 方法细节

4.1 整体网络架构

数据流详解

FDConv 是一个可以直接替换 nn.Conv2d 的即插即用模块,其内部数据流如下:

  1. 输入 (Input) :特征图 X X X。
  2. 注意力生成 (Attention Generation)
    • 利用全局平均池化(GAP)和全连接层(FC),从输入 X X X 中预测出两组动态系数:空间调制系数 α \alpha α频带调制系数 β \beta β
  3. 频域核构建 (Frequency Kernel Construction)
    • 预定义一个可学习的频域张量 W f W_f Wf(Parameter Budget)。
    • FBM 调制 :利用系数 β \beta β 对 W f W_f Wf 的不同频带进行加权增强或抑制。
  4. 逆傅里叶变换 (IFFT)
    • 将调制后的频域张量通过 IFFT 变换回空间域,得到一组基卷积核(Basis Kernels)。
  5. 空间核聚合与调制 (Spatial Aggregation & KSM)
    • KSM 调制 :利用系数 α \alpha α 对基卷积核进行空间层面的动态加权。
    • 将加权后的核聚合为一个最终的动态卷积核 W d y n a m i c W_{dynamic} Wdynamic。
  6. 卷积操作 :使用 W d y n a m i c W_{dynamic} Wdynamic 对输入 X X X 进行标准卷积,输出结果。
4.2 核心创新模块详解

模块 A:频域权重生成与分组 (Frequency Weight Generation)

  • 设计理念:利用 DFT 的共轭对称性,只需要存储一半的频域系数即可还原实数卷积核,节省一半参数。
  • 分组策略 :将总的参数预算切分为 G G G 组,每组只负责频谱中的一部分(例如一组负责低频,一组负责高频)。这强制每个"专家"核专注于不同的纹理特征。

模块 B:双重调制 (KSM & FBM)

  • KSM (Kernel Spatial Modulation)
    • 作用于空间域
    • 类似于 SE-Net 的通道注意力,但这里是对卷积核本身进行加权。它决定了"使用哪个基核"。
  • FBM (Frequency Band Modulation)
    • 作用于频域
    • 这是一个细粒度的控制。它允许网络根据输入图像的模糊程度或噪声水平,动态地增强高频(细节)或抑制高频(去噪)。
  • 协同工作:FBM 调整核的"内涵"(频率成分),KSM 调整核的"强度"(组合方式),两者实现了对卷积核性质的全方位控制。
4.3 理念与机制总结

FDConv 的核心理念是 "频域稀疏性与正交性"

  • 机制 :它认为在空间域学习 N N N 个相似的 3 × 3 3 \times 3 3×3 矩阵是浪费的。不如在频域学习几个正交的"波",然后通过组合这些波来生成千变万化的卷积核。
  • 公式解读 : W = IFFT ( FBM ( W f ) ) ⊙ α W = \text{IFFT}(\text{FBM}(W_f)) \odot \alpha W=IFFT(FBM(Wf))⊙α。
4.4 图解总结

回到动机图解

  • IFFT 机制 解决了参数爆炸问题,因为频域参数通常比空间域参数更紧凑且易于压缩。
  • 频率分组 解决了核同质化问题。由于每组基核来源于不同的频带,它们在物理上就不可能相似,从而保证了特征提取的多样性(Diversity)。

5. 即插即用模块的作用

FDConv 设计为通用的卷积算子,具有极广的适用性:

  • 适用场景
    • 密集预测任务:语义分割、目标检测、深度估计。这些任务对多尺度和多频率特征非常敏感。
    • 底层视觉任务:图像去噪、去雨、超分辨率。FBM 能够动态调节滤波器的通带,非常适合处理频率相关的退化。
  • 具体应用
    • 替换 ResNet/Swin 中的 Conv :将 ResNet 中的 3 × 3 3 \times 3 3×3 卷积替换为 FDConv,可以直接获得精度提升。
    • 轻量化模型设计:在 MobileNet 或 EfficientNet 中使用 FDConv,可以在不增加参数量的前提下,大幅提升模型的表达能力(Capacity)。

6. 实验部分简单分析

论文在 ADE20K (分割) , COCO (检测) , SIDD (去噪) 等多个数据集上进行了验证。

  1. 语义分割 (Semantic Segmentation)

    • 在 ADE20K 上,使用 ResNet-50 作为 Backbone,FDConv 相比标准的 ResNet 提升了 +3.4 mIoU ,相比 ODConv 提升了 +1.2 mIoU
    • 关键点 :FDConv 的参数量仅为 ODConv 的 1/4 甚至更少,实现了"少马跑快车"。
  2. 目标检测 (Object Detection)

    • 在 COCO 数据集上,FDConv 在 Mask R-CNN 框架下带来了显著的 AP 提升,证明了其在实例级任务上的有效性。
  3. 图像去噪 (Image Denoising)

    • 在 SIDD 数据集上,FDConv 展现了强大的频率适应能力,PSNR 指标优于传统的动态卷积方法。
    • 可视化 :去噪后的图像纹理保留更好,说明 FBM 成功地在去噪(低通滤波)和保边(高频保留)之间找到了动态平衡。

总结:FDConv 是一篇极具洞察力的论文。它跳出了空间域"堆参数"的内卷怪圈,利用经典的信号处理理论(FFT)为深度学习算子注入了新的活力。对于追求极致效率和模型性能的 CV 工程师来说,这绝对是一个值得尝试的"黑科技"算子。

到此,所有的内容就基本讲完了。如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。

7. 获取即插即用代码关注 【AI即插即用】

相关推荐
NAGNIP10 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab12 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab12 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP15 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年15 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼16 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS16 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区17 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈17 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang18 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx