即插即用系列 | CVPR 2024 FADC：频域自适应空洞卷积，完美解决语义分割“网格效应”

论文名称：Frequency-Adaptive Dilated Convolution for Semantic Segmentation

论文原文 (Paper) ：https://arxiv.org/abs/2403.05369
代码 (code) ：https://github.com/ying-fu/FADC

GitHub 仓库链接（包含论文解读及即插即用代码） ：https://github.com/AITricks/AITricks
哔哩哔哩视频讲解 ：https://space.bilibili.com/57394501?spm_id_from=333.337.0.0

- - [1. 核心思想](#1. 核心思想)
  - [2. 背景与动机](#2. 背景与动机)
  - [3. 主要创新点](#3. 主要创新点)
  - [4. 方法细节](#4. 方法细节)
  - - **整体网络架构**
    - [** 核心创新模块详解**](#** 核心创新模块详解**)
    - **理念与机制总结**
  - [5. 即插即用模块的作用](#5. 即插即用模块的作用)
  - [6. 实验部分简单分析](#6. 实验部分简单分析)

1. 核心思想

本文针对语义分割中空洞卷积（Dilated Convolution）面临的网格伪影（Gridding Effect）和高频细节丢失 问题，提出了一种**频率自适应空洞卷积（FADC）**方案。核心观点是：不同频率区域应匹配不同的膨胀率（Dilation Rate），高频区域（如边界）需要小膨胀率以保留细节，低频区域（如平滑内部）需要大膨胀率以获取上下文。基于此，论文设计了空间自适应调整膨胀率的 FADC，并配合 AdaKern（自适应卷积核） 和 FreqSelect（频率选择） 模块，分别从权重和特征层面动态平衡高低频分量，显著提升了分割精度。

2. 背景与动机

背景：

空洞卷积通过在卷积核中插入"空洞"来扩大感受野，是语义分割（如 DeepLab 系列）的标配。然而，它存在两个固有缺陷：

网格效应：由于采样点不连续，输出特征图会出现棋盘格状的伪影，导致局部信息丢失。
高频损失：随着膨胀率增大，卷积核变得稀疏，难以捕获细微的边缘和纹理（高频信息），这对精细分割致命。

动机图解分析：

看图说话：
- 图 (b) 标准空洞卷积：可以明显看到特征图中存在规律性的**"网格状"黑点**（Gridding Effect），这意味着特征提取是不连续的，丢失了大量局部细节。
- 图 © 本文 FADC：特征图变得非常平滑且连续，同时物体的**边缘轮廓（高频信息）**依然清晰可见。
- 结论：这直观地展示了传统方法的**"采样缺陷"，引出了本文通过动态调整采样策略**来修复空间连续性和高频细节的核心动机。
看图说话 ：该图从频谱分析角度展示了不同膨胀率对高/低频的响应。大膨胀率（ r = 8 r=8 r=8）虽然感受野大，但会引入许多高频混叠（Aliasing），破坏图像结构。这进一步说明了根据图像内容的频率特性动态选择膨胀率的必要性。

3. 主要创新点

频率自适应空洞卷积 (FADC)：提出了一种空间自适应的策略，根据图像局部频率内容动态为每个像素分配最佳的膨胀率，打破了全局固定膨胀率的限制。
自适应卷积核模块 (AdaKern) ：在权重空间进行分解，将卷积核分解为低频（平滑）和高频（差分）分量，并根据输入动态调整两者的比例，增强对高频细节的捕获能力。
频率选择模块 (FreqSelect) ：在特征空间进行重加权，根据空间位置动态抑制有害的高频噪声（如网格伪影）或增强有益的边缘信息，进一步优化特征表达。

4. 方法细节

整体网络架构

数据流向 ：
1. 输入 (Input) ：特征图 X X X。
2. 分支一：膨胀率预测 ：通过一个轻量级的小网络（Rate Predictor），根据输入特征的空间频率分布，预测出一个空间对齐的膨胀率图 (Dilation Map)。
3. 分支二：卷积运算 ：
  - AdaKern：动态调整卷积核权重，生成适应当前通道特性的组合权重。
  - FADC 采样 ：利用预测的膨胀率图，对输入特征进行可变形的重采样（类似 Deformable Conv，但偏移量由膨胀率决定）。
4. 后处理：FreqSelect：对卷积输出的特征进行频率加权，抑制伪影。
5. 输出 (Output)：得到感受野自适应且细节保留完整的特征图。

核心创新模块详解

** 模块 A：FADC (Frequency-Adaptive Dilated Convolution)**

设计逻辑 ：
- 高频区域（边缘） → \rightarrow → 需要连续采样 → \rightarrow → 分配 小膨胀率（接近 1）。
- 低频区域（平滑背景） → \rightarrow → 需要大感受野 → \rightarrow → 分配 大膨胀率。
工作机制 ：
网络预测一个连续的膨胀率场 D ∈ R H × W D \in \mathbb{R}^{H \times W} D∈RH×W。在卷积采样时，采样点坐标 ( p k + D p ⋅ Δ p k ) (p_k + D_{p} \cdot \Delta p_k) (pk+Dp⋅Δpk) 是非整数的，因此利用双线性插值 来获取特征值。这本质上是将离散的空洞卷积变成了一个连续可变的采样过程。

** 模块 B：AdaKern (Adaptive Kernel Module)**

设计逻辑：普通卷积核是一个固定的矩阵，往往偏向低频（平滑）。为了抓取细节，必须显式增强高频分量。
内部结构 ：
1. 分解：将卷积权重 W W W 分解为低频部分 W l o w W_{low} Wlow（例如均值滤波器）和高频部分 W h i g h = W − W l o w W_{high} = W - W_{low} Whigh=W−Wlow。
2. 重组：引入一个通道注意力的标量 α c \alpha_c αc，动态重组权重： W ′ = ( 1 − α c ) ⋅ W l o w + α c ⋅ W h i g h W' = (1-\alpha_c) \cdot W_{low} + \alpha_c \cdot W_{high} W′=(1−αc)⋅Wlow+αc⋅Whigh。
3. 目的：让网络自己决定哪些通道需要关注纹理（高频），哪些通道关注背景（低频）。

模块 C：FreqSelect (Frequency Selection Module)

设计逻辑：空洞卷积容易在高频段引入混叠噪声（Aliasing）。
工作机制 ：
1. 将特征图分解为高频特征 Y h i g h Y_{high} Yhigh 和低频特征 Y l o w Y_{low} Ylow（通过拉普拉斯金字塔或简单的高斯模糊差分）。
2. 学习一个空间掩码 M M M，对高低频特征进行加权融合： Y o u t = M ⋅ Y h i g h + ( 1 − M ) ⋅ Y l o w Y_{out} = M \cdot Y_{high} + (1-M) \cdot Y_{low} Yout=M⋅Yhigh+(1−M)⋅Ylow。
3. 效果：在平坦区域抑制高频噪声（消除网格效应），在边缘区域保留高频信号。

理念与机制总结

核心理念 ："频域解耦，按需分配" 。
这篇论文不像以前的方法那样只在空间位置上做文章（如 Deformable Conv），而是引入了**频率（Frequency）**这个维度。
协同工作 ：
- FADC 负责在空间上把采样点放到最合适的位置（边缘密集采，背景稀疏采）。
- AdaKern 负责在权重上强化高频提取能力。
- FreqSelect 负责在特征上 滤除采样带来的噪声。
  三者形成闭环，完美解决了空洞卷积的固有缺陷。

5. 即插即用模块的作用

FADC 及其子模块具有极强的通用性，可以直接替换现有的卷积层：

**FADC **
- 适用场景 ：所有使用 Dilated Convolution 的网络，特别是语义分割任务。
- 具体应用 ：直接替换 DeepLabV3+ 中的 ASPP (Atrous Spatial Pyramid Pooling) 模块中的标准空洞卷积，或者替换 ResNet-50 最后两个 Stage 的空洞卷积层。
**AdaKern **
- 适用场景：需要增强边缘检测或纹理分析的任务。
- 具体应用 ：可以插入到任何标准卷积层中，作为一个动态权重生成器，增强模型对高频信息的敏感度，且几乎不增加推理延迟（因为权重重组可以在推理前预计算）。
**FreqSelect **
- 适用场景：图像重建、去噪、超分辨率等对高频伪影敏感的任务。
- 具体应用 ：作为一个后处理模块接在特征提取层之后，用于动态抑制特征图中的混叠噪声和棋盘格伪影。

6. 实验部分简单分析

定量分析 ：
- 在 ADE20K 数据集上，将 FADC 应用于 DeepLabV3+，mIoU 提升了 1.2% - 1.8%，这在语义分割领域是非常显著的提升。
- 相比于其他动态卷积方法（如 Deformable Conv），FADC 在保持较低 FLOPs 的同时，性能更优，说明基于频率的引导比纯粹的空间学习更有效。
消融实验 ：
- 单独使用 FADC、AdaKern 或 FreqSelect 均有提升，但三者结合（Full Method）效果最好，证明了三个模块在频域处理上的互补性。
可视化效果 ：
- 分割结果的边缘更加锐利，细小物体（如杆子、远处的行人）的分割精度显著提高，且大面积区域内部更加平滑，没有了破碎的孔洞。

💡 总结 ：这篇论文是典型的"用频域知识解释并优化空洞卷积"的佳作。它不仅告诉我们空洞卷积为什么会有问题（频域混叠），还给出了一套优雅的解决方案。对于做分割、检测 以及底层视觉（去噪、超分）的同学，这篇论文的思路非常值得借鉴！