论文阅读:Frequency Domain-Based Diffusion Model for Unpaired Image Dehazing

作者:Chengxu Liu1 Lu Qi2,3 Jinshan Pan4 Xueming Qian1 Ming-Hsuan Yang5

机构:1School of Software Engineering, Xi'an Jiaotong University 2Wuhan University
3 Insta360 4Nanjing University of Science and Technology 5University of California, Merced

来源会议:IEEE/CVF International Conference on Computer Vision, ICCV 2025
会议时间:2025年10月19日---10月23日

1. 研究目标,过去以及本文使用的方法,优势及其创新点

1.1 研究目标

本文研究的是非配对图像去雾任。

所谓非配对去雾,是指训练数据中有两类图像

有雾图像集合:I_h

清晰图像集合:I_c

但是二者不是一一对应的。也就是说,不存在严格的:某一张有雾图像对应同一场景下的清晰 GT 图像这种数据形式更接近真实应用,因为真实世界中很难对同一个场景同时采集"有雾图"和"无雾图。

所以本文目标是:在没有成对 GT 监督的情况下,充分利用非配对清晰图像中的有效信息,提高去雾模型在合成数据和真实数据上的泛化能力。

1.2 过去常用方法

论文中主要回顾了三类去雾方法。

1.2.1 传统先验方法

早期方法通常基于人为设计的图像先验,例如:

DCP:Dark Channel Prior,暗通道先验
CAP:Color Attenuation Prior,颜色衰减先验
Color-lines / Haze-lines

这些方法依赖对有雾图像统计规律的观察,不需要大量训练数据,但问题是:先验假设不一定适用于所有场景。比如强光、白色物体、天空区域、夜景等场景会破坏先验假设,导致去雾不稳定。

1.2.2 有监督深度学习方法

有监督方法使用成对的:有雾图像 Hazy Image 清晰图像 Ground Truth进行训练。典型方法包括 DehazeNet、MSCNN、AOD-Net、FFANet、MSBDN 等。

这类方法的优点是指标通常较高,尤其在合成测试集上效果明显。但问题也很突出:训练数据多为合成雾,与真实雾存在明显域差异。因此模型可能在 SOTS 等合成测试集上表现很好,但迁移到真实雾图时会出现颜色偏移、过度增强、局部伪影等问题。

1.2.3 非监督 / 非配对方法

非配对去雾方法主要包括:

CycleGAN-like 方法

Contrastive Learning-like 方法

Pseudo-label 方法

其中 CycleGAN 类方法建立有雾域和清晰域之间的循环映射,使用对抗损失和循环一致性损失进行训练。它的问题是:有雾图像和清晰图像之间并不一定存在严格的一一双射关系,尤其不同浓度的雾会导致优化不对称。

对比学习类方法,如 UCL-Dehaze、ODCR 等,通过构造正负样本对,最大化去雾结果与清晰域之间的互信息。但论文认为这类方法存在一个重要缺陷:容易引入与雾无关的内容信息,同时忽略了雾退化在频域中的特殊表现。

1.3 本文使用的方法

本文提出 FrDiff:Frequency Domain-Based Diffusion Model for Unpaired Image Dehazing

它不是直接在 RGB 空间生成清晰图像,而是从频域重建的角度处理非配对去雾任务。方法核心由三部分组成:

  1. ARE:Amplitude Residual Encoder,幅度残差编码器

  2. DM:Diffusion Model,扩散模型

  3. PCM:Phase Correction Module,相位校正模块

其中,ARE 用于从有雾图像和非配对清晰图像中提取**幅度残差z。**扩散模型学习如何从高斯噪声中重建这个幅度残差;PCM 则利用幅度残差信息进一步修正相位谱,减少伪影。

1.4 本文优势与创新点

本文的创新点可以概括为四个方面。

第一,首次将扩散模型引入非配对图像去雾任务

论文强调,FrDiff 是第一个将扩散模型用于非配对图像去雾的工作。以往扩散模型多用于有监督图像恢复、超分辨率、去模糊、修复等任务,而本文将其引入非配对去雾,并不是直接生成图像,而是生成频域幅度残差。

这点很关键,因为直接用扩散模型生成清晰图像容易出现:计算量大,颜色异常,细节伪影,而本文只让扩散模型重建较低复杂度的幅度残差,因此训练和推理更轻量。

第二,提出 ARE 提取幅度残差

ARE 的作用是把有雾图像的幅度谱分布对齐到清晰图像的幅度谱分布,然后计算二者之间的残差:z = A'_h - A_h其中:

A_h:有雾图像的幅度谱

A_c:清晰图像的幅度谱

A'_h:对齐到清晰域分布后的有雾幅度谱

z:幅度残差

ARE 的优势是:它不引入额外可学习参数,而是通过均值和标准差做分布对齐。这使得它既可以利用清晰域信息,又尽量避免引入清晰图像中的内容结构。

第三,提出 PCM 修正相位谱

一般认为幅度谱更多反映亮度、对比度、颜色等低频或全局统计信息,而相位谱更多保留结构、边缘和纹理信息。本文认为,严重雾霾不仅影响幅度,也会遮挡结构细节,导致相位谱中的纹理信息不够可靠。

因此作者提出 PCM,让幅度残差 z 生成一个注意力权重,再作用于相位谱,得到相位残差:

ω = SoftMax(GAP(z))

P_res = Conv(ω ⊗ P_h)

P_out = P_h + P_res

这样做的目的,是用雾强度相关的幅度信息指导相位修复,减少去雾后的伪影。

第四,采用两阶段训练策略

FrDiff 分为两个阶段训练:

Stage 1:训练 ARE + 去雾网络,让网络学习如何利用真实幅度残差 z 去雾

Stage 2:训练扩散模型,使其从高斯噪声中重建幅度残差 z

推理阶段不再需要清晰图像输入,而是:

输入有雾图像 I_h

提取其幅度谱 A_h

扩散模型从高斯噪声生成幅度残差 z_hat

去雾网络利用 z_hat 完成去雾

这使得模型在测试时可以只输入单张有雾图像。

2. 文中算法主要思想

2.1 总体思想

(a) 频域中雾霾降解特性的示意图。雾霾降解效果可通过振幅谱的交换实现传递。
(b) 对比学习类方法通过构建正样本与负样本对,最大化清晰图像与雾霾图像之间的互信息。
(c) 我FrDiff模型在训练过程中从未配对数据中学习清晰图像的振幅谱,并在推理阶段对其进行重建。

论文在图 2 中展示了:交换有雾图像和清晰图像的幅度谱后,雾霾外观会发生明显变化,说明雾相关退化主要与幅度谱有关;而相位谱更多保留结构信息。

换句话说,本文不是简单地让网络学习:Hazy RGB 转为Clear RGB ,而是转化为:有雾图像的频域幅度谱 → 清晰图像分布下的幅度谱这样可以降低非配对学习的难度

2.2 频域、幅度谱、相位谱是什么意思?

一张图像可以从空间域转换到频域。空间域就是我们平常看到的像素图像,而频域可以理解为把图像拆成不同频率成分。通过 FFT,可以得到复数形式的频域表示:

F = A · exp(jP)其中:A:Amplitude Spectrum,幅度谱 P:Phase Spectrum,相位谱

幅度谱

幅度谱主要反映:

亮度

颜色分布

对比度

整体雾霾强度

低频能量分布

雾霾通常会造成图像整体发白、对比度下降、颜色变淡,这些变化在频域中主要体现为幅度谱变化。因此本文认为:去雾的关键可以转化为幅度谱恢复问题。

相位谱

相位谱主要反映:

边缘

轮廓

纹理结构

空间位置关系

如果只改变幅度谱,图像整体颜色和对比度会变化;如果破坏相位谱,图像结构会严重变形。因此相位谱对于图像结构恢复非常重要。

本文的一个细节是:虽然相位谱通常较稳定,但在严重雾霾下,结构被遮挡,相位谱也会出现不可靠部分,所以作者额外设计了 PCM 修正相位谱。

2.3 FrDiff 总体结构

(a)FrDiff的整体架构,主要由去雾网络和扩散模型组成
(b)振幅残差编码器(ARE)的结构,该模块可生成振幅残差以补偿模糊区域与清晰区域之间的间隙(c)相位校正模块(PCM)的结构,该模块通过注意力机制优化相位频谱,从而消除不必要的伪影

论文图 4 展示了 FrDiff 的整体结构。FrDiff 主要包括:

  1. Dehazing Network:去雾网络
  2. ARE:幅度残差编码器
  3. DM:扩散模型
  4. FCL:频率补偿层
  5. PCM:相位校正模块

整体流程可以理解为:

1.输入有雾图像 I_h 和非配对清晰图像 I_c

2.提取特征并做 FFT

3.得到有雾幅度谱 A_h 和清晰幅度谱 A_c

4.ARE根据得到的A_h和A_c计算幅度残差 z

5.先对 z 加噪得到 z_T,然后让扩散模型逐步去噪,重建出 z_hat. z_hat 输入FCL,用于补偿有雾图像的频域特征

6.z_hat同时输入 PCM,用于修正相位谱

7.IFFT(逆快速傅里叶变换) 回到空间域

8.去雾网络输出清晰图像I_out

2.4 ARE:幅度残差编码器

ARE 是本文最核心的模块之一。

它的目标不是直接生成完整清晰幅度谱,而是计算:

从有雾幅度谱到清晰幅度谱需要补偿多少

具体过程如下。

首先,输入有雾图像和非配对清晰图像,经过 FFT 得到:

A_h:有雾图像幅度谱

A_c:清晰图像幅度谱

然后分别计算它们的均值和标准差:

μ_h, σ_h:有雾幅度谱的均值和标准差

μ_c, σ_c:清晰幅度谱的均值和标准差

接着使用类似风格迁移中 AdaIN 的分布对齐方式:

A'_h = σ_c / σ_h · (A_h - μ_h) + μ_c

这一步的意思是:

把有雾图像的幅度谱分布调整到清晰图像幅度谱的统计分布。

最后得到幅度残差:

z = A'_h - A_h

这个 z 表示:
有雾幅度谱需要补偿多少,才能更接近清晰域幅度谱。

2.5 FCL:频率补偿层

FCL 是去雾网络内部用来接收幅度残差的模块。

核心操作是:A_out = A_h + z

也就是说,把 ARE 或扩散模型生成的幅度残差补偿到原始有雾幅度谱上,得到更接近清晰图像分布的幅度谱。

然后结合相位谱,通过 IFFT 回到空间域,继续由去雾网络恢复图像。

论文还采用多尺度 FCL,即在 U-Net 不同尺度的特征层都加入频域补偿。这样可以让浅层、深层特征都获得幅度残差的引导。

2.6 PCM:相位校正模块

PCM 的作用是修正相位谱,减少伪影。

为什么需要 PCM?因为幅度谱主要处理颜色、亮度和对比度,但图像结构、边缘和纹理更多依赖相位谱。严重雾霾会遮挡纹理,导致相位谱也受到影响。如果只修正幅度谱,可能仍然会出现局部纹理不清晰或伪影。

PCM 的流程是:

输入:相位谱 P_h 和幅度残差 z

对 z 做 GAP,全局平均池化

Softmax 得到权重向量 ω

用 ω 调制相位谱 P_h

卷积生成相位残差 P_res

P_out = P_h + P_res

其中:

GAP:Global Average Pooling,全局平均池化

Softmax:归一化函数,使权重具有选择性

⊗:逐元素乘法

⊕:逐元素加法

可以把 PCM 理解为:
用幅度残差判断哪里雾更严重,再针对性地修正相位结构信息

这比普通 self-attention 更轻量,计算量更低。

2.7 扩散模型在本文中的作用

传统扩散模型通常是从高斯噪声逐步生成图像,例如:

Noise → Image

但本文没有让扩散模型直接生成清晰图像,而是让它生成:

Noise → Amplitude Residual z

这样做有两个好处:

  1. 幅度残差比完整图像更简单,扩散过程所需迭代次数更少

  2. 不直接生成图像,减少颜色异常和纹理伪影

论文中扩散模型的输入条件是有雾图像的幅度谱 A_h,目标是重建 ARE 提供的幅度残差 z。

训练第二阶段中,先对 z 加噪得到 z_T,然后让扩散模型逐步去噪,重建出 z_hat:

z → z_T → z_hat

推理时没有清晰图像,因此直接从高斯噪声 z_T 开始,在 A_h 条件引导下生成 z_hat,然后送入 FCL 辅助去雾。

2.8 两阶段训练流程

Stage One:幅度残差提取与去雾网络训练

输入:I_h:有雾图像 I_c:非配对清晰图像

通过 ARE 得到幅度残差 z,然后直接把 z 输入去雾网络。此时扩散模型不参与训练,目的是先让去雾网络学会如何利用真实幅度残差完成去雾。

由于没有成对 GT,不能使用严格像素级 L1/L2 损失。论文采用:

GAN loss

PatchNCE contrastive loss

用于让去雾结果接近清晰图像分布,同时保持内容结构。

Stage Two:扩散模型重建幅度残差

第二阶段训练扩散模型,让其学习从高斯噪声中生成幅度残差。

损失函数为:

L_s2 = L_s1 + λ_diff L_diff

L_diff = ||z - z_hat||_1

其中:

z:ARE 生成的幅度残差

z_hat:扩散模型重建的幅度残差

最终目的是让测试时即使没有清晰图像,扩散模型也能根据有雾图像条件生成合适的幅度补偿信息。

3. 实验结果

3.1 数据集

论文使用了多个常见去雾数据集,覆盖合成数据、人工真实雾数据和真实世界无 GT 数据。

RESIDE 数据集

RESIDE 包括多个子集

ITS:Indoor Training Set,13,990 对合成室内有雾/清晰图像

SOTS-Indoor:500 对合成室内测试图像

SOTS-Outdoor:500 对合成室外测试图像

HSTS-Synth:10 对合成有雾/清晰图像

HSTS-Real:10 张真实有雾图像,无 GT

URHI:超过 4,000 张真实有雾图像,无 GT

本文按照已有工作设置,使用 ITS 作为训练集,其余数据集作为测试集。

I-HAZE 数据集

I-HAZE 包含 35 对真实室内有雾/清晰图像,由专业雾生成器采集,属于人工真实雾数据。

Fattal's 数据集

Fattal's 数据集包含 31 张不同场景下的真实有雾图像,没有对应 GT。

3.2 评价指标

论文根据是否有 GT,采用不同指标。

有 GT 数据集

对于 SOTS-Indoor、SOTS-Outdoor、HSTS-Synth、I-HAZE,使用:

PSNR

SSIM

无 GT 真实数据集

对于 HSTS-Real、Fattal's、URHI,使用无参考图像质量评价指标:

FADE ↓

BRISQUE ↓

其中:

FADE 越低,表示图像残留雾越少

BRISQUE 越低,表示无参考感知质量越好

3.3 定量实验结果

合成和人工数据集结果

表 1 对比了 FrDiff 与有监督、无监督方法在多个数据集上的表现。
对SOTS-Indoor、SOTS-Outdoor、 HSTS -Synth和I-HAZE数据集进行定量比较。
浮点运算次数是在尺寸为256×256的图像上计算得出的。红色和蓝色分别表示最佳性能和次佳性能。

FrDiff 在非监督方法中表现非常突出:

SOTS-Indoor:PSNR 27.43,SSIM 0.957

SOTS-Outdoor:PSNR 22.75,SSIM 0.914

HSTS-Synth:PSNR 23.24,SSIM 0.923

I-HAZE:PSNR 15.35,SSIM 0.763

其中,在 SOTS-Indoor 上,FrDiff 超过 ODCR、UCL-Dehaze、CDD-GAN、CycleGAN 等非配对方法。特别是 ODCR 的 SOTS-Indoor PSNR 为 26.32,而 FrDiff 达到 27.43,提升明显。

在 SOTS-Outdoor 上,FrDiff 达到 22.75 PSNR,高于大多数无监督方法。论文认为,这说明频域幅度重建比单纯对比学习更能抓住雾退化本质。效率方面,FrDiff 参数量为:8.76M FLOPs:54.56G

真实数据集结果

在 HSTS-Real、Fattal's 和 URHI 上,由于没有 GT,论文使用 FADE 和 BRISQUE。

表 2 中 FrDiff 的结果为:
基于 HSTS -Real、Fattal和 URHI数据集的定量比较

HSTS-Real:FADE 0.8732,BRISQUE 26.972

Fattal's:FADE 0.2435,BRISQUE 18.747

URHI:FADE 0.8813,BRISQUE 32.022

FrDiff 在 HSTS-Real 和 Fattal's 上表现最好,在 URHI 上也有较好结果。论文认为这说明 FrDiff 在真实复杂雾场景中具有较好泛化能力。

3.4 定性实验结果

SOTS-Indoor / SOTS-Outdoor 可视化

论文图 5 展示了合成测试集上的可视化结果。对比方法包括:

从论文描述看,FrDiff 在室内浓雾区域能够更彻底地去除雾,尤其在门内、墙面、天空等区域能够恢复更自然的亮度和颜色。其他方法往往存在残雾、色偏或对比度不足问题。

真实数据集可视化

论文图 6 展示了 HSTS-Real、Fattal's 和 URHI 上的真实场景结果。FrDiff 在远处重雾区域、文字区域和大面积复杂场景中表现较好,能够恢复更清晰的结构和更自然的视觉观感。

论文特别提到,在 URHI 示例中,FrDiff 能够恢复被雾影响的文字内容,说明其频域幅度补偿和相位修正机制对真实场景也有效。

3.5 消融实验

组件消融

表 3 显示完整模型结果为:
针对SOTS-Indoor数据集对各组件进行的消融实验

Full model:PSNR 27.43,SSIM 0.957

去掉不同模块后:

w/o DM:PSNR 24.66,SSIM 0.922

w/o ARE:PSNR 27.12,SSIM 0.943

w/o PCM:PSNR 27.14,SSIM 0.952

w/o Multi-Scale:PSNR 26.80,SSIM 0.950

w/o Joint-Training:PSNR 26.77,SSIM 0.950

其中,去掉 DM 后下降最大,PSNR 降低 2.77 dB,说明扩散模型重建幅度残差是本文性能提升的关键。

ARE 消融

在ARE模块上做的消融实验

表 4 对 ARE 做了进一步分析:

Self-Attn:27.27 / 0.952

ARE(RGB Space):25.16 / 0.920

ARE(w/ mean):27.36 / 0.955

ARE(w/ std):27.23 / 0.951

ARE(w/ mean+std):27.43 / 0.957

这说明:

  1. 在频域中做 ARE 明显优于 RGB 空间

  2. 仅使用均值或标准差都有效

  3. 同时使用均值和标准差效果最好

这也支撑了论文关于"幅度分布对齐"的核心观点。

PCM 消融

表 5 对比了不同注意力机制:
在PCM上做的消融研究

Self-Attn:27.21 / 0.952

Spatial Attn:27.16 / 0.952

Channel Attn:27.29 / 0.954

Mixed Attn:27.38 / 0.956

PCM:27.43 / 0.957

PCM 结构更简单,但性能最好,说明用幅度残差信息引导相位修正是有效的。

DM 消融

表 6 对比了不同幅度残差重建方式:

w/o DM:24.66 / 0.922

Memory Bank:27.14 / 0.951

Sparse Coding:25.26 / 0.931

Vanilla VQ:26.89 / 0.950

Diffusion Model:27.43 / 0.957

说明扩散模型比记忆库、稀疏编码、普通 VQ 更适合重建幅度残差。

扩散迭代步数 T

表 7 显示不同 T 的结果:

T=1:PSNR 24.76,SSIM 0.925,FLOPs 22.94G

T=4:PSNR 25.51,SSIM 0.935,FLOPs 36.49G

T=8:PSNR 27.43,SSIM 0.957,FLOPs 54.56G

T=16:PSNR 27.74,SSIM 0.958,FLOPs 90.70G

T=32:PSNR 27.81,SSIM 0.959,FLOPs 162.98G

可以看到,T 越大性能越好,但计算量也显著增加。T 超过 8 后提升变小,因此作者选择 T=8 作为性能和效率的折中。

4. 结论

本文提出了一种面向非配对图像去雾的频域扩散模型 FrDiff。它的核心贡献不在于简单地把扩散模型搬到去雾任务中,而是重新定义了扩散模型的生成目标:不生成整张清晰图像,而是生成频域幅度残差

这种设计有三个关键优势:

  1. 降低扩散模型的生成难度

  2. 避免直接生成图像带来的颜色异常和纹理伪影

  3. 更符合雾霾退化主要体现在幅度谱中的物理/频域特性

ARE 通过均值和标准差对齐,将有雾幅度谱调整到清晰域分布,并生成幅度残差作为扩散模型监督;PCM 则进一步利用幅度残差修正相位谱,减少结构伪影;FCL 在多尺度特征中引入频域补偿,使去雾网络能够充分利用扩散模型生成的幅度先验。

实验结果表明,FrDiff 在 SOTS-Indoor、SOTS-Outdoor、HSTS-Synth、I-HAZE 等有 GT 数据集上取得了优于多数非监督方法的 PSNR/SSIM 表现,在 HSTS-Real、Fattal's、URHI 等真实无 GT 数据集上也展现出较好的泛化能力。消融实验进一步证明了 DM、ARE、PCM、多尺度补偿和联合训练均对性能提升有贡献。

总体来看,这篇论文的价值在于:它为非配对图像去雾提供了一个新的思路,即从频域幅度重建角度利用非配对清晰图像知识

启发:不要总是让模型在 RGB 空间直接向伪清晰图对齐,而可以考虑把监督或生成目标转移到更稳定、更少内容干扰的频域先验上,例如幅度残差、颜色/亮度分布残差、高频细节残差等。

相关推荐
链上日记1 小时前
WEEX Labs:当 AI 制造视觉迷雾,Web3 正在重塑信息的透明边界
人工智能·制造
木心术11 小时前
AI在FPGA中实现多平台射频信号时隙调整参考及案例
人工智能·fpga开发·信息与通信
云布道师1 小时前
阿里云 Tablestore 为 Hermes Agent 构建记忆系统最佳实践
网络·人工智能·阿里云
audyxiao0011 小时前
智能交通顶刊TITS论文分享|一种基于文本提示引导的多模态大语言模型的交通流预测框架
人工智能·深度学习·多模态大模型
翼龙云_cloud1 小时前
云代理商:云端部署的Hermes Agent 如何接入钉钉?
人工智能·云计算·ai 智能体·hermes agent·hermes
yongui478341 小时前
基于卷积神经网络(CNN)的盲源分离MATLAB实现
人工智能·matlab·cnn
AI服务老曹1 小时前
节省95%开发成本:支持X86/ARM与GPU/NPU异构部署的AI视频云网关架构深度解析
arm开发·人工智能·音视频
ting94520001 小时前
GRPO 算法全解析:从原理到实战
人工智能·架构
mit6.8241 小时前
Code is not cheap
人工智能