Multiscale Structure Guided Diffusion for Image Deblurring 论文阅读

基于多尺度结构引导扩散模型的图像去模糊

摘要

扩散概率模型（Diffusion Probabilistic Models, DPMs）最近被用于图像去模糊，其被表述为一个以模糊输入为条件的图像条件生成过程，将高斯噪声映射到高质量图像。当在成对的域内数据上训练时，图像条件DPMs（icDPMs）显示出比基于回归的方法更真实的结果。然而，当面对域外图像时，它们在恢复图像方面的鲁棒性尚不清楚，因为它们没有强加特定的退化模型或中间约束。为此，我们引入了一种简单而有效的多尺度结构引导，作为一种隐式偏置（implicit bias），在中间层通知 icDPM 关于清晰图像的粗粒度结构。这种引导公式显著改善了去模糊结果，特别是在未见过的域上。该引导是从一个回归网络的潜在空间中提取的，该网络经过训练可以在多个较低分辨率下预测清晰目标，从而保留了最显著的清晰结构。借助模糊输入和多尺度引导，icDPM模型可以更好地理解模糊并恢复清晰图像。我们在多个数据集上评估了仅在单个数据集上训练的模型，并在未见数据上展示了更鲁棒的去模糊结果和更少的伪影。我们的方法优于现有基线，在保持具有竞争力的失真度量的同时，实现了最先进的感知质量。

1 引言

图像去模糊是一个本质上病态（ill-posed）的反问题，旨在根据模糊观测估计一个（或多个）高质量图像 。深度网络允许通过成对有监督学习进行端到端的图像去模糊。虽然基于深度回归的方法 [88, 98, 105, 86, 6, 96, 7, 90, 85, 42, 66, 58]优化了诸如PSNR之类的失真度量，但它们通常会产生过度平滑的输出，缺乏视觉保真度[40, 5, 14, 4]。因此，感知驱动的方法 [44, 27]旨在产生清晰且视觉上令人愉悦的图像，同时仍然忠实于清晰参考图像，通常需要在失真性能上做出轻微妥协，即PSNR下降小于3dB [4, 61]允许显著更好的视觉质量，同时仍然接近目标图像。GANs[18]被用来改进去模糊感知[37, 38]。然而，GAN训练存在不稳定性、模式崩溃（mode-collapse）和伪影[53]，这可能会损害生成图像的合理性。

基于深度回归的方法是指：将去模糊问题视为图像到图像的转换问题，深度模型将模糊图像作为输入，预测高质量的清晰图像。使用像素级损失（如L1和L2损失）进行监督训练，直接优化失真度量（如PSNR和SSIM）。比如正常的U-Net架构，端到端网络监督学习。
基于感知驱动的方法是指：旨在产生清晰且视觉上令人愉悦的图像，同时仍然忠实于清晰的参考图像。比如基于生成模型的方法。

最近，DPMs [20]在各种成像反问题 [74, 43, 90, 72, 13]中进一步提高了照片真实感，其被表述为一个图像条件生成过程 ，其中DPM将退化估计作为辅助输入 。图像条件DPMs（icDPMs）既不估计退化核 ，也不施加任何中间约束 。这些模型使用标准的去噪损失[20]和成对训练数据以监督方式进行训练 。在图像恢复中，这种成对训练数据集通常是通过在干净的图像组上应用已知的退化模型人为策划的 ，这不可避免地引入了合成训练数据集与真实世界模糊图像之间的域差距（domain gap）。

成像反问题：反问题为已知输出或观测结果，推断系统参数或原始输入。已知模糊图像，需要恢复出原始清晰图像。成像反问题本质上是不适定问题，在图像处理中，多个不同的清晰图像可能产生相同的模糊观测，因此反问题通常没有唯一解。从论文和图像处理领域来看，主要的成像反问题包括图像去模糊、超分辨率、图像去噪等。
域差距 (domain gap)指的是合成训练数据分布(ptrain)与真实世界数据分布(preal)之间的差异。

差距具体表现在以下几个方面：数据生成方式的差异（合成训练数据 是已知的退化模型（如特定模糊核）人工生成的；真实世界模糊图像 具有更复杂的退化模式，往往无法用简单的数学模型精确描述。）、具体表现的差异、实证分析（Inception距离分析 /表1/计算了GoPro(域内)和Realblur-J(域外)在不同尺度下的FID和KID值，显示两者之间存在显著差异）。

域差距导致的主要问题是：模型在域外数据上鲁棒性下降、产生视觉伪影、无法有效恢复真实世界的模糊图像
鲁棒性相当不明确指的是当icDPMs (image-conditioned Diffusion Probabilistic Models)面对与训练数据分布不同的未见数据(out-of-domain data)时，其性能表现不稳定且难以预测。
中间恢复过程难以处理指的是icDPMs的去模糊过程缺乏明确的中间表示和约束。icDPMs将去模糊视为一个端到端的条件生成过程，没有明确的中间步骤表示。

当面对未见数据时，icDPMs的鲁棒性相当不明确 ，因为中间恢复过程是难以处理的。例如，当我们将合成训练的icDPM应用于域外数据时，我们观察到性能显著下降，包括未能对输入进行去模糊（图1）和引入伪影（图4 'icDPM'和图7 'DvSR'）。我们通过实验确定了现有去模糊icDPMs[72, 74, 90]中域敏感性 与图像条件 之间的关系，其中观察到的泛化能力差 归因于简单的输入级连接 （input-level concatenation）以及去模糊过程中缺乏中间约束 。在合成训练集上优化 时，可能会发生过拟合或记忆 [78]，使得模型对输入分布的偏移变得脆弱 。目前，在模糊或损坏图像上条件化DPM的研究尚不充分 [68]，我们假设更有效的图像条件化对于icDPM至关重要，可以使模型在未见域上更具约束性和鲁棒性。

域敏感性与图像条件之间的关系 指的是现有图像条件扩散概率模型(icDPMs)对域外数据表现不佳的根本原因与其处理图像条件的方式直接相关。
记忆：引用的[78]论文("Diffusion art or digital forgery? investigating data replication in diffusion models")指出，扩散模型可能不仅学习数据分布，还可能直接"复制"训练数据中的特定样本
输入分布 (Input Distribution):指训练数据的统计特性，包括图像内容、模糊类型、光照条件等。
分布偏移(Distribution Shift):指测试数据与训练数据在统计特性上的系统性差异。也就是说输入分布偏了一点就学不好了。

图1：在 Realbur-J 数据集 [67]上的去模糊示例，模型仅在合成的GoPro数据[57]上训练。比较了最近的基于回归的方法[96,89]（MPRNet,UFormer）、基于GAN的方法[38]（DeblurGANV2）和图像条件扩散概率方法（icDPM）。我们在icDPM公式上引入了一个引导模块，提高了其在未见图像上的鲁棒性。

受传统盲去模糊算法的启发（这些算法使用显式的结构先验 （例如，包含图像显著性[62, 93]）进行优化，我们通过中间层的多尺度结构引导增强了icDPM主干（UNet[70]）。这些引导特征是通过一个回归网络获得的，该网络经过训练可以从输入中预测显著的清晰特征。该引导与模糊图像一起，为模型提供了关于图像中特定退化的更具信息性的线索。因此，模型可以更准确地恢复清晰图像并更有效地泛化。

图像显著性(Image Saliency) 是指图像中对人类视觉系统特别突出、引人注意的部分，通常代表图像中最重要的结构特征和信息。

我们的贡献有三方面：

(1) 我们研究并分析了条件扩散模型 在运动去模糊任务中的域泛化能力 ，并通过实验发现了模型鲁棒性与图像条件化之间的关系 ；

(2) 我们提出了一种直观但有效的引导模块 ，将输入图像投影到多尺度结构表示中，然后将其作为辅助先验融入扩散模型以提高鲁棒性；

(3) 与现有基准相比，我们仅在单个数据集上训练的模型通过产生更合理的去模糊和更少的伪影，在不同的测试集上显示出更鲁棒的结果，并通过最先进的感知质量和相当的失真度量进行了量化。

2 相关工作

单图像去模糊

是从模糊观测中恢复一个或多个高质量、清晰图像的反过程。通常，经典的去模糊方法涉及变分优化[17, 36, 41, 54, 63, 93, 1, 26]，对模糊核、图像或两者施加先验假设，以缓解反问题的病态性。手工制作的结构先验，如边缘和形状，已成功用于许多算法中，以引导去模糊过程在去除模糊的同时保留图像中的重要特征[62, 63, 93]。我们的设计原则受到这些方法的启发，涉及一种学习的引导作为隐式结构偏置。随着深度学习的兴起，去模糊可以被视为一个特定的图像到图像转换问题，其中深度模型以模糊图像作为输入，并预测一个高质量对应物，通过恢复图像与目标之间的逐像素损失进行监督[88, 98, 105, 86, 6, 96, 7, 90, 85, 42, 66, 58, 25]。已知逐像素损失（如L1L_{1}L1和L2L_{2}L2）由于其"回归到均值"的性质会导致过度平滑的图像[40, 5, 14]。为此，在逐像素约束之上添加了感知驱动的损失，包括感知损失[27, 101, 51, 50, 103, 14]和对抗损失[37, 38]，以提高去模糊图像的视觉保真度，同时失真分数有所下降[4, 61]。另外，最近的工作通过探索注意力机制[60, 95, 89, 94, 85, 86]、多尺度范式[57, 7]和多阶段框架[97, 6, 96]来改进架构设计。

Multiscale Structure Guided Diffusion for Image Deblurring 论文阅读

基于多尺度结构引导扩散模型的图像去模糊

摘要

1 引言

2 相关工作

单图像去模糊

扩散概率模型（DPM）