DiffIR论文阅读笔记

  • ICCV2023的一篇用diffusion模型做Image Restoration的论文,一作是清华的教授,还在NIPS2023上一作发表了Hierarchical Integration Diffusion Model for Realistic Image Deblurring,作者里甚至有Luc Van Gool大佬。
  • 模型分三个部分,一个是CPEN用来提取IPR,一个是DIRformer,用来完成restoration任务,一个是denoising network,用diffusion的方式来预测IPR。分两阶段训练,第一阶段先train CPEN和DIRformer,第二阶段再train denoising network。如此看来其实思想和stable diffusion很像,就是不在图像域上diffusion,这样size太大而且step太多,而是在特征域上diffusion,本文就是在IPR上diffusion
  • 方法的细节上图都有。首先CPEN是一个从输入和GT的concatenate中提取一维向量,用这个一维向量参与到用于restoration的transformer中的channel-wise调制过程。第一阶段是这个restoration network和这个CPEN的联合训练,损失是restoration结果和GT之间的L1损失。这里引进GT是为了这个向量能提取得更好一点,从而使得整个过程的PSNR更高一点。
  • 但实际应用中我们不可能有GT来作为输入,所以第二阶段我们需要train一个diffusion model来从LQ图片中预测z。这里diffusion还是老一套,认为一阶段train好的CPEN提取的z是x0,然后加噪到xt,reverse的过程就是从xt去噪预测x0的过程。diffusion模型的输入由3部分组成,首先当然是上一步的Zt,然后是t,接着是作为条件输入的D,这个D是用一个新的CPEN从LQ中提取的,称为CPEN2,他和第一阶段的CPEN在网络结构上是一样的(除了输入层)。这个很好理解,如果没有D作为条件,那不就相当于要diffusion模型从噪声预测一个z出来,那这个z当然和input无关,所以需要额外添加一个D作为条件,这也是很多用diffusion做restoration的思路。第二阶段需要混合训练CPEN2,denoising network和restoration network,损失函数是restoration结果 和GT之间的L1损失,以及diffusion预测的IPR和第一阶段的CPEN预测的IPR之间的L1损失。
  • 感觉这个工作怪怪的,restoraion一般比较关注的去噪没有做,居然做了inpainting。选的三个任务是超分,inpainting和deblurring这三个任务。此外,这个IPR向量仅仅是通道调制,在我看来更多可能影响风格信息,用diffusion模型来预测这个IPR向量真的有必要吗?对这个工作实际效果持怀疑态度,到时候跑代码看一下。
相关推荐
澜世24 分钟前
2024小迪安全基础入门第三课
网络·笔记·安全·网络安全
Bald Baby25 分钟前
JWT的使用
java·笔记·学习·servlet
rellvera1 小时前
【强化学习的数学原理】第02课-贝尔曼公式-笔记
笔记·机器学习
yuwinter2 小时前
鸿蒙HarmonyOS学习笔记(2)
笔记·学习·harmonyos
游走于计算机中摆烂的3 小时前
启动前后端分离项目笔记
java·vue.js·笔记
你可以叫我仔哥呀4 小时前
ElasticSearch学习笔记三:基础操作(一)
笔记·学习·elasticsearch
maxiumII4 小时前
Diving into the STM32 HAL-----DAC笔记
笔记·stm32·嵌入式硬件
美式小田7 小时前
单片机学习笔记 9. 8×8LED点阵屏
笔记·单片机·嵌入式硬件·学习
猫爪笔记7 小时前
前端:HTML (学习笔记)【2】
前端·笔记·学习·html
_不会dp不改名_7 小时前
HCIA笔记3--TCP-UDP-交换机工作原理
笔记·tcp/ip·udp