读论文:DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior

DiffBIR 发表于2023年的ICCV,是一种基于生成扩散先验的盲图像恢复模型。它通过两个阶段的处理来去除图像的退化,并细化图像的细节。DiffBIR 的优势在于提供高质量的图像恢复结果,并且具有灵活的参数设置,可以在保真度和质量之间进行权衡。网络结构图如下所示:

  • 优化的痛点问题:

  • 平衡扩散模型内在具有的真实感先验 以及图像复原任务所需要的保真度要求。

  • two stage 的网络总体架构

  • stage one:去除退化的预训练模型

  • SwinIR 的结构(8个残差Swin Transformer block,每个RSTB包含6个Swin Transformer Layers (STL));

  • 处理多种任务:模糊,噪声,压缩伪影和低分辨率(二阶退化采用经典退化模型:模糊-调整大小-噪声过程两次)

  • 3 × 3卷积层进行浅层特征提取;深度特征提取采用多个残差Transformer块(低分辨率空间)。

  • stage two:利用生成先验进行图像重建

  • Stable Diffusion 的方法(Stable Diffusion 2.1-base 3,并进行微调);

  • 扩散和去噪过程在潜在空间中进行(类似LDM);

  • LAControlNet :使用孪生encoder来控制decoder生成图像的保真度。在微调自己的模型过程中,就是微调 LAControlNet 的参数(和 ControlNet 一样的0卷积策略)。

  • 颜色偏移问题

  • ControlNet使用从头开始训练的附加条件网络来编码条件信息;LAControlNet训练有素的VAE编码器能够将条件图像投影到与潜在变量相同的表示空间中:该策略显著减轻了潜在扩散模型中内部知识与外部条件信息对齐的负担。在实验中,直接使用ControlNet进行图像重建会导致严重的颜色偏移。

  • 保真度-真实性权衡引导

  • 在扩散模型的公式中,通过移项变换是可以直接由第 t 时间步的隐状态 zt 直接得到原始的干净图像 z0 的估计的,如下式:

  • 将基于潜在的损失D_latent定义为潜在图像引导与估计的干净潜在之间的L2距离,如下式:

  • 上述引导可以迭代地强制潜在特征之间的空间对齐和颜色一致性,并引导生成的潜在保留参考潜在的内容,实现从生成的输出到更平滑的结果的过渡。

  • stage one 中的数据退化细节

  • 退化模型在某一阶段包括三个操作:模糊、调整大小和噪声。模糊。我们利用各向同性高斯模糊或各向异性高斯模糊具有相同的概率。模糊核的大小遵循7 ~ 21的均匀分布,第一次退化过程的模糊σ均匀采样在0.2 ~ 3之间,第二次退化过程的模糊σ均匀采样在0.2 ~ 1.5之间。调整大小。我们考虑了多种调整算法,包括面积调整、双线性插值和双三次调整。对于第一次降解过程,调整尺寸的比例因子遵循0.15至1.5的均匀分布,对于第二次降解过程,比例因子遵循0.3至1.2的均匀分布。噪音。我们结合了高斯噪声、泊松噪声和JPEG压缩噪声。高斯噪声的尺度在第一次退化过程中均匀采样在1 ~ 30之间,在第二次退化过程中均匀采样在1 ~ 25之间。在第一次和第二次退化过程中,泊松噪声的尺度分别在0.05 ~ 3和0.05 ~ 2.5之间随机采样。JPEG压缩的质量遵循从30到95的均匀分布。此外,我们还结合了盲人脸恢复中所采用的退化设置。具体来说,我们考虑一个大的降采样范围[1,12],和一个大的模糊核范围,其sigma在[0.1,12]以内。这样可以训练生成模块在大范围内弥补信息丢失。

相关推荐
IT古董25 分钟前
【机器学习】机器学习的基本分类-强化学习-策略梯度(Policy Gradient,PG)
人工智能·机器学习·分类
centurysee27 分钟前
【最佳实践】Anthropic:Agentic系统实践案例
人工智能
mahuifa27 分钟前
混合开发环境---使用编程AI辅助开发Qt
人工智能·vscode·qt·qtcreator·编程ai
四口鲸鱼爱吃盐28 分钟前
Pytorch | 从零构建GoogleNet对CIFAR10进行分类
人工智能·pytorch·分类
蓝天星空41 分钟前
Python调用open ai接口
人工智能·python
睡觉狂魔er42 分钟前
自动驾驶控制与规划——Project 3: LQR车辆横向控制
人工智能·机器学习·自动驾驶
scan7241 小时前
LILAC采样算法
人工智能·算法·机器学习
leaf_leaves_leaf1 小时前
win11用一条命令给anaconda环境安装GPU版本pytorch,并检查是否为GPU版本
人工智能·pytorch·python
夜雨飘零11 小时前
基于Pytorch实现的说话人日志(说话人分离)
人工智能·pytorch·python·声纹识别·说话人分离·说话人日志
爱喝热水的呀哈喽1 小时前
《机器学习》支持向量机
人工智能·决策树·机器学习