论文阅读：Frequency Domain-Based Diffusion Model for Unpaired Image Dehazing

作者：Chengxu Liu1 Lu Qi2,3 Jinshan Pan4 Xueming Qian1 Ming-Hsuan Yang5

机构：1School of Software Engineering, Xi'an Jiaotong University 2Wuhan University
3 Insta360 4Nanjing University of Science and Technology 5University of California, Merced

来源会议：IEEE/CVF International Conference on Computer Vision, ICCV 2025
会议时间：2025年10月19日---10月23日

1. 研究目标，过去以及本文使用的方法，优势及其创新点

1.1 研究目标

本文研究的是非配对图像去雾任。

所谓非配对去雾，是指训练数据中有两类图像

有雾图像集合：I_h

清晰图像集合：I_c

但是二者不是一一对应的。也就是说，不存在严格的：某一张有雾图像对应同一场景下的清晰 GT 图像这种数据形式更接近真实应用，因为真实世界中很难对同一个场景同时采集"有雾图"和"无雾图。

所以本文目标是：在没有成对 GT 监督的情况下，充分利用非配对清晰图像中的有效信息，提高去雾模型在合成数据和真实数据上的泛化能力。

1.2 过去常用方法

论文中主要回顾了三类去雾方法。

1.2.1 传统先验方法

早期方法通常基于人为设计的图像先验，例如：

DCP：Dark Channel Prior，暗通道先验
CAP：Color Attenuation Prior，颜色衰减先验
Color-lines / Haze-lines

这些方法依赖对有雾图像统计规律的观察，不需要大量训练数据，但问题是：先验假设不一定适用于所有场景。比如强光、白色物体、天空区域、夜景等场景会破坏先验假设，导致去雾不稳定。

1.2.2 有监督深度学习方法

有监督方法使用成对的：有雾图像 Hazy Image 清晰图像 Ground Truth进行训练。典型方法包括 DehazeNet、MSCNN、AOD-Net、FFANet、MSBDN 等。

这类方法的优点是指标通常较高，尤其在合成测试集上效果明显。但问题也很突出：训练数据多为合成雾，与真实雾存在明显域差异。因此模型可能在 SOTS 等合成测试集上表现很好，但迁移到真实雾图时会出现颜色偏移、过度增强、局部伪影等问题。

1.2.3 非监督 / 非配对方法

非配对去雾方法主要包括：

CycleGAN-like 方法

Contrastive Learning-like 方法

Pseudo-label 方法

其中 CycleGAN 类方法建立有雾域和清晰域之间的循环映射，使用对抗损失和循环一致性损失进行训练。它的问题是：有雾图像和清晰图像之间并不一定存在严格的一一双射关系，尤其不同浓度的雾会导致优化不对称。

对比学习类方法，如 UCL-Dehaze、ODCR 等，通过构造正负样本对，最大化去雾结果与清晰域之间的互信息。但论文认为这类方法存在一个重要缺陷：容易引入与雾无关的内容信息，同时忽略了雾退化在频域中的特殊表现。

1.3 本文使用的方法

本文提出 FrDiff：Frequency Domain-Based Diffusion Model for Unpaired Image Dehazing。

它不是直接在 RGB 空间生成清晰图像，而是从频域重建的角度处理非配对去雾任务。方法核心由三部分组成：

ARE：Amplitude Residual Encoder，幅度残差编码器
DM：Diffusion Model，扩散模型
PCM：Phase Correction Module，相位校正模块

其中，ARE 用于从有雾图像和非配对清晰图像中提取**幅度残差z。**扩散模型学习如何从高斯噪声中重建这个幅度残差；PCM 则利用幅度残差信息进一步修正相位谱，减少伪影。

1.4 本文优势与创新点

本文的创新点可以概括为四个方面。

第一，首次将扩散模型引入非配对图像去雾任务

论文强调，FrDiff 是第一个将扩散模型用于非配对图像去雾的工作。以往扩散模型多用于有监督图像恢复、超分辨率、去模糊、修复等任务，而本文将其引入非配对去雾，并不是直接生成图像，而是生成频域幅度残差。

这点很关键，因为直接用扩散模型生成清晰图像容易出现：计算量大，颜色异常，细节伪影，而本文只让扩散模型重建较低复杂度的幅度残差，因此训练和推理更轻量。

第二，提出 ARE 提取幅度残差

ARE 的作用是把有雾图像的幅度谱分布对齐到清晰图像的幅度谱分布，然后计算二者之间的残差：z = A'_h - A_h其中：

A_h：有雾图像的幅度谱

A_c：清晰图像的幅度谱

A'_h：对齐到清晰域分布后的有雾幅度谱

z：幅度残差

ARE 的优势是：它不引入额外可学习参数，而是通过均值和标准差做分布对齐。这使得它既可以利用清晰域信息，又尽量避免引入清晰图像中的内容结构。

第三，提出 PCM 修正相位谱

一般认为幅度谱更多反映亮度、对比度、颜色等低频或全局统计信息，而相位谱更多保留结构、边缘和纹理信息。本文认为，严重雾霾不仅影响幅度，也会遮挡结构细节，导致相位谱中的纹理信息不够可靠。

因此作者提出 PCM，让幅度残差 z 生成一个注意力权重，再作用于相位谱，得到相位残差：

ω = SoftMax(GAP(z))

P_res = Conv(ω ⊗ P_h)

P_out = P_h + P_res

这样做的目的，是用雾强度相关的幅度信息指导相位修复，减少去雾后的伪影。

第四，采用两阶段训练策略

FrDiff 分为两个阶段训练：

Stage 1：训练 ARE + 去雾网络，让网络学习如何利用真实幅度残差 z 去雾

Stage 2：训练扩散模型，使其从高斯噪声中重建幅度残差 z

推理阶段不再需要清晰图像输入，而是：

输入有雾图像 I_h

提取其幅度谱 A_h

扩散模型从高斯噪声生成幅度残差 z_hat

去雾网络利用 z_hat 完成去雾

这使得模型在测试时可以只输入单张有雾图像。

2. 文中算法主要思想

2.1 总体思想

(a) 频域中雾霾降解特性的示意图。雾霾降解效果可通过振幅谱的交换实现传递。
(b) 对比学习类方法通过构建正样本与负样本对，最大化清晰图像与雾霾图像之间的互信息。
(c) 我FrDiff模型在训练过程中从未配对数据中学习清晰图像的振幅谱，并在推理阶段对其进行重建。

论文在图 2 中展示了：交换有雾图像和清晰图像的幅度谱后，雾霾外观会发生明显变化，说明雾相关退化主要与幅度谱有关；而相位谱更多保留结构信息。

换句话说，本文不是简单地让网络学习：Hazy RGB 转为Clear RGB ，而是转化为：有雾图像的频域幅度谱 → 清晰图像分布下的幅度谱这样可以降低非配对学习的难度

2.2 频域、幅度谱、相位谱是什么意思？

一张图像可以从空间域转换到频域。空间域就是我们平常看到的像素图像，而频域可以理解为把图像拆成不同频率成分。通过 FFT，可以得到复数形式的频域表示：

F = A · exp(jP)其中：A：Amplitude Spectrum，幅度谱 P：Phase Spectrum，相位谱

幅度谱

幅度谱主要反映：

亮度

颜色分布

对比度

整体雾霾强度

低频能量分布

雾霾通常会造成图像整体发白、对比度下降、颜色变淡，这些变化在频域中主要体现为幅度谱变化。因此本文认为：去雾的关键可以转化为幅度谱恢复问题。

相位谱

相位谱主要反映：

边缘

轮廓

纹理结构

空间位置关系

如果只改变幅度谱，图像整体颜色和对比度会变化；如果破坏相位谱，图像结构会严重变形。因此相位谱对于图像结构恢复非常重要。

本文的一个细节是：虽然相位谱通常较稳定，但在严重雾霾下，结构被遮挡，相位谱也会出现不可靠部分，所以作者额外设计了 PCM 修正相位谱。

2.3 FrDiff 总体结构

(a)FrDiff的整体架构，主要由去雾网络和扩散模型组成
(b)振幅残差编码器（ARE）的结构，该模块可生成振幅残差以补偿模糊区域与清晰区域之间的间隙(c)相位校正模块（PCM）的结构，该模块通过注意力机制优化相位频谱，从而消除不必要的伪影

论文图 4 展示了 FrDiff 的整体结构。FrDiff 主要包括：

Dehazing Network：去雾网络
ARE：幅度残差编码器
DM：扩散模型
FCL：频率补偿层
PCM：相位校正模块

整体流程可以理解为：

1.输入有雾图像 I_h 和非配对清晰图像 I_c

2.提取特征并做 FFT

3.得到有雾幅度谱 A_h 和清晰幅度谱 A_c

4.ARE根据得到的A_h和A_c计算幅度残差 z

5.先对 z 加噪得到 z_T，然后让扩散模型逐步去噪，重建出 z_hat. z_hat 输入FCL，用于补偿有雾图像的频域特征

6.z_hat同时输入 PCM，用于修正相位谱

7.IFFT（逆快速傅里叶变换）回到空间域

8.去雾网络输出清晰图像I_out

2.4 ARE：幅度残差编码器

ARE 是本文最核心的模块之一。

它的目标不是直接生成完整清晰幅度谱，而是计算：

从有雾幅度谱到清晰幅度谱需要补偿多少

具体过程如下。

首先，输入有雾图像和非配对清晰图像，经过 FFT 得到：

A_h：有雾图像幅度谱

A_c：清晰图像幅度谱

然后分别计算它们的均值和标准差：

μ_h, σ_h：有雾幅度谱的均值和标准差

μ_c, σ_c：清晰幅度谱的均值和标准差

接着使用类似风格迁移中 AdaIN 的分布对齐方式：

A'_h = σ_c / σ_h · (A_h - μ_h) + μ_c

这一步的意思是：

把有雾图像的幅度谱分布调整到清晰图像幅度谱的统计分布。

最后得到幅度残差：

z = A'_h - A_h

这个 z 表示：
有雾幅度谱需要补偿多少，才能更接近清晰域幅度谱。

2.5 FCL：频率补偿层

FCL 是去雾网络内部用来接收幅度残差的模块。

核心操作是：A_out = A_h + z

也就是说，把 ARE 或扩散模型生成的幅度残差补偿到原始有雾幅度谱上，得到更接近清晰图像分布的幅度谱。

然后结合相位谱，通过 IFFT 回到空间域，继续由去雾网络恢复图像。

论文还采用多尺度 FCL，即在 U-Net 不同尺度的特征层都加入频域补偿。这样可以让浅层、深层特征都获得幅度残差的引导。

2.6 PCM：相位校正模块

PCM 的作用是修正相位谱，减少伪影。

为什么需要 PCM？因为幅度谱主要处理颜色、亮度和对比度，但图像结构、边缘和纹理更多依赖相位谱。严重雾霾会遮挡纹理，导致相位谱也受到影响。如果只修正幅度谱，可能仍然会出现局部纹理不清晰或伪影。

PCM 的流程是：

输入：相位谱 P_h 和幅度残差 z

↓

对 z 做 GAP，全局平均池化

↓

Softmax 得到权重向量 ω

↓

用 ω 调制相位谱 P_h

↓

卷积生成相位残差 P_res

↓

P_out = P_h + P_res

其中：

GAP：Global Average Pooling，全局平均池化

Softmax：归一化函数，使权重具有选择性

⊗：逐元素乘法

⊕：逐元素加法

可以把 PCM 理解为：
用幅度残差判断哪里雾更严重，再针对性地修正相位结构信息

这比普通 self-attention 更轻量，计算量更低。

2.7 扩散模型在本文中的作用

传统扩散模型通常是从高斯噪声逐步生成图像，例如：

Noise → Image

但本文没有让扩散模型直接生成清晰图像，而是让它生成：

Noise → Amplitude Residual z

这样做有两个好处：

幅度残差比完整图像更简单，扩散过程所需迭代次数更少
不直接生成图像，减少颜色异常和纹理伪影

论文中扩散模型的输入条件是有雾图像的幅度谱 A_h，目标是重建 ARE 提供的幅度残差 z。

训练第二阶段中，先对 z 加噪得到 z_T，然后让扩散模型逐步去噪，重建出 z_hat：

z → z_T → z_hat

推理时没有清晰图像，因此直接从高斯噪声 z_T 开始，在 A_h 条件引导下生成 z_hat，然后送入 FCL 辅助去雾。

2.8 两阶段训练流程

Stage One：幅度残差提取与去雾网络训练

输入：I_h：有雾图像 I_c：非配对清晰图像

通过 ARE 得到幅度残差 z，然后直接把 z 输入去雾网络。此时扩散模型不参与训练，目的是先让去雾网络学会如何利用真实幅度残差完成去雾。

由于没有成对 GT，不能使用严格像素级 L1/L2 损失。论文采用：

GAN loss

PatchNCE contrastive loss

用于让去雾结果接近清晰图像分布，同时保持内容结构。

Stage Two：扩散模型重建幅度残差

第二阶段训练扩散模型，让其学习从高斯噪声中生成幅度残差。

损失函数为：

L_s2 = L_s1 + λ_diff L_diff

L_diff = ||z - z_hat||_1

其中：

z：ARE 生成的幅度残差

z_hat：扩散模型重建的幅度残差

最终目的是让测试时即使没有清晰图像，扩散模型也能根据有雾图像条件生成合适的幅度补偿信息。

3. 实验结果

3.1 数据集

论文使用了多个常见去雾数据集，覆盖合成数据、人工真实雾数据和真实世界无 GT 数据。

RESIDE 数据集

RESIDE 包括多个子集

ITS：Indoor Training Set，13,990 对合成室内有雾/清晰图像

SOTS-Indoor：500 对合成室内测试图像

SOTS-Outdoor：500 对合成室外测试图像

HSTS-Synth：10 对合成有雾/清晰图像

HSTS-Real：10 张真实有雾图像，无 GT

URHI：超过 4,000 张真实有雾图像，无 GT

本文按照已有工作设置，使用 ITS 作为训练集，其余数据集作为测试集。

I-HAZE 数据集

I-HAZE 包含 35 对真实室内有雾/清晰图像，由专业雾生成器采集，属于人工真实雾数据。

Fattal's 数据集

Fattal's 数据集包含 31 张不同场景下的真实有雾图像，没有对应 GT。

3.2 评价指标

论文根据是否有 GT，采用不同指标。

有 GT 数据集

对于 SOTS-Indoor、SOTS-Outdoor、HSTS-Synth、I-HAZE，使用：

PSNR

SSIM

无 GT 真实数据集

对于 HSTS-Real、Fattal's、URHI，使用无参考图像质量评价指标：

FADE ↓

BRISQUE ↓

其中：

FADE 越低，表示图像残留雾越少

BRISQUE 越低，表示无参考感知质量越好

3.3 定量实验结果

合成和人工数据集结果

表 1 对比了 FrDiff 与有监督、无监督方法在多个数据集上的表现。
对SOTS-Indoor、SOTS-Outdoor、 HSTS -Synth和I-HAZE数据集进行定量比较。
浮点运算次数是在尺寸为256×256的图像上计算得出的。红色和蓝色分别表示最佳性能和次佳性能。

FrDiff 在非监督方法中表现非常突出：

SOTS-Indoor：PSNR 27.43，SSIM 0.957

SOTS-Outdoor：PSNR 22.75，SSIM 0.914

HSTS-Synth：PSNR 23.24，SSIM 0.923

I-HAZE：PSNR 15.35，SSIM 0.763

其中，在 SOTS-Indoor 上，FrDiff 超过 ODCR、UCL-Dehaze、CDD-GAN、CycleGAN 等非配对方法。特别是 ODCR 的 SOTS-Indoor PSNR 为 26.32，而 FrDiff 达到 27.43，提升明显。

在 SOTS-Outdoor 上，FrDiff 达到 22.75 PSNR，高于大多数无监督方法。论文认为，这说明频域幅度重建比单纯对比学习更能抓住雾退化本质。效率方面，FrDiff 参数量为：8.76M FLOPs：54.56G

真实数据集结果

在 HSTS-Real、Fattal's 和 URHI 上，由于没有 GT，论文使用 FADE 和 BRISQUE。

表 2 中 FrDiff 的结果为：
基于 HSTS -Real、Fattal和 URHI数据集的定量比较

HSTS-Real：FADE 0.8732，BRISQUE 26.972

Fattal's：FADE 0.2435，BRISQUE 18.747

URHI：FADE 0.8813，BRISQUE 32.022

FrDiff 在 HSTS-Real 和 Fattal's 上表现最好，在 URHI 上也有较好结果。论文认为这说明 FrDiff 在真实复杂雾场景中具有较好泛化能力。

3.4 定性实验结果

SOTS-Indoor / SOTS-Outdoor 可视化

论文图 5 展示了合成测试集上的可视化结果。对比方法包括：

从论文描述看，FrDiff 在室内浓雾区域能够更彻底地去除雾，尤其在门内、墙面、天空等区域能够恢复更自然的亮度和颜色。其他方法往往存在残雾、色偏或对比度不足问题。

真实数据集可视化

论文图 6 展示了 HSTS-Real、Fattal's 和 URHI 上的真实场景结果。FrDiff 在远处重雾区域、文字区域和大面积复杂场景中表现较好，能够恢复更清晰的结构和更自然的视觉观感。

论文特别提到，在 URHI 示例中，FrDiff 能够恢复被雾影响的文字内容，说明其频域幅度补偿和相位修正机制对真实场景也有效。

3.5 消融实验

组件消融

表 3 显示完整模型结果为：
针对SOTS-Indoor数据集对各组件进行的消融实验

Full model：PSNR 27.43，SSIM 0.957

去掉不同模块后：

w/o DM：PSNR 24.66，SSIM 0.922

w/o ARE：PSNR 27.12，SSIM 0.943

w/o PCM：PSNR 27.14，SSIM 0.952

w/o Multi-Scale：PSNR 26.80，SSIM 0.950

w/o Joint-Training：PSNR 26.77，SSIM 0.950

其中，去掉 DM 后下降最大，PSNR 降低 2.77 dB，说明扩散模型重建幅度残差是本文性能提升的关键。

ARE 消融

在ARE模块上做的消融实验

表 4 对 ARE 做了进一步分析：

Self-Attn：27.27 / 0.952

ARE(RGB Space)：25.16 / 0.920

ARE(w/ mean)：27.36 / 0.955

ARE(w/ std)：27.23 / 0.951

ARE(w/ mean+std)：27.43 / 0.957

这说明：

在频域中做 ARE 明显优于 RGB 空间
仅使用均值或标准差都有效
同时使用均值和标准差效果最好

这也支撑了论文关于"幅度分布对齐"的核心观点。

PCM 消融

表 5 对比了不同注意力机制：
在PCM上做的消融研究

Self-Attn：27.21 / 0.952

Spatial Attn：27.16 / 0.952

Channel Attn：27.29 / 0.954

Mixed Attn：27.38 / 0.956

PCM：27.43 / 0.957

PCM 结构更简单，但性能最好，说明用幅度残差信息引导相位修正是有效的。

DM 消融

表 6 对比了不同幅度残差重建方式：

w/o DM：24.66 / 0.922

Memory Bank：27.14 / 0.951

Sparse Coding：25.26 / 0.931

Vanilla VQ：26.89 / 0.950

Diffusion Model：27.43 / 0.957

说明扩散模型比记忆库、稀疏编码、普通 VQ 更适合重建幅度残差。

扩散迭代步数 T

表 7 显示不同 T 的结果：

T=1：PSNR 24.76，SSIM 0.925，FLOPs 22.94G

T=4：PSNR 25.51，SSIM 0.935，FLOPs 36.49G

T=8：PSNR 27.43，SSIM 0.957，FLOPs 54.56G

T=16：PSNR 27.74，SSIM 0.958，FLOPs 90.70G

T=32：PSNR 27.81，SSIM 0.959，FLOPs 162.98G

可以看到，T 越大性能越好，但计算量也显著增加。T 超过 8 后提升变小，因此作者选择 T=8 作为性能和效率的折中。

4. 结论

本文提出了一种面向非配对图像去雾的频域扩散模型 FrDiff。它的核心贡献不在于简单地把扩散模型搬到去雾任务中，而是重新定义了扩散模型的生成目标：不生成整张清晰图像，而是生成频域幅度残差。

这种设计有三个关键优势：

降低扩散模型的生成难度
避免直接生成图像带来的颜色异常和纹理伪影
更符合雾霾退化主要体现在幅度谱中的物理/频域特性

ARE 通过均值和标准差对齐，将有雾幅度谱调整到清晰域分布，并生成幅度残差作为扩散模型监督；PCM 则进一步利用幅度残差修正相位谱，减少结构伪影；FCL 在多尺度特征中引入频域补偿，使去雾网络能够充分利用扩散模型生成的幅度先验。

实验结果表明，FrDiff 在 SOTS-Indoor、SOTS-Outdoor、HSTS-Synth、I-HAZE 等有 GT 数据集上取得了优于多数非监督方法的 PSNR/SSIM 表现，在 HSTS-Real、Fattal's、URHI 等真实无 GT 数据集上也展现出较好的泛化能力。消融实验进一步证明了 DM、ARE、PCM、多尺度补偿和联合训练均对性能提升有贡献。

总体来看，这篇论文的价值在于：它为非配对图像去雾提供了一个新的思路，即从频域幅度重建角度利用非配对清晰图像知识。

启发：不要总是让模型在 RGB 空间直接向伪清晰图对齐，而可以考虑把监督或生成目标转移到更稳定、更少内容干扰的频域先验上，例如幅度残差、颜色/亮度分布残差、高频细节残差等。