DiffIR论文阅读笔记

  • ICCV2023的一篇用diffusion模型做Image Restoration的论文,一作是清华的教授,还在NIPS2023上一作发表了Hierarchical Integration Diffusion Model for Realistic Image Deblurring,作者里甚至有Luc Van Gool大佬。
  • 模型分三个部分,一个是CPEN用来提取IPR,一个是DIRformer,用来完成restoration任务,一个是denoising network,用diffusion的方式来预测IPR。分两阶段训练,第一阶段先train CPEN和DIRformer,第二阶段再train denoising network。如此看来其实思想和stable diffusion很像,就是不在图像域上diffusion,这样size太大而且step太多,而是在特征域上diffusion,本文就是在IPR上diffusion
  • 方法的细节上图都有。首先CPEN是一个从输入和GT的concatenate中提取一维向量,用这个一维向量参与到用于restoration的transformer中的channel-wise调制过程。第一阶段是这个restoration network和这个CPEN的联合训练,损失是restoration结果和GT之间的L1损失。这里引进GT是为了这个向量能提取得更好一点,从而使得整个过程的PSNR更高一点。
  • 但实际应用中我们不可能有GT来作为输入,所以第二阶段我们需要train一个diffusion model来从LQ图片中预测z。这里diffusion还是老一套,认为一阶段train好的CPEN提取的z是x0,然后加噪到xt,reverse的过程就是从xt去噪预测x0的过程。diffusion模型的输入由3部分组成,首先当然是上一步的Zt,然后是t,接着是作为条件输入的D,这个D是用一个新的CPEN从LQ中提取的,称为CPEN2,他和第一阶段的CPEN在网络结构上是一样的(除了输入层)。这个很好理解,如果没有D作为条件,那不就相当于要diffusion模型从噪声预测一个z出来,那这个z当然和input无关,所以需要额外添加一个D作为条件,这也是很多用diffusion做restoration的思路。第二阶段需要混合训练CPEN2,denoising network和restoration network,损失函数是restoration结果 和GT之间的L1损失,以及diffusion预测的IPR和第一阶段的CPEN预测的IPR之间的L1损失。
  • 感觉这个工作怪怪的,restoraion一般比较关注的去噪没有做,居然做了inpainting。选的三个任务是超分,inpainting和deblurring这三个任务。此外,这个IPR向量仅仅是通道调制,在我看来更多可能影响风格信息,用diffusion模型来预测这个IPR向量真的有必要吗?对这个工作实际效果持怀疑态度,到时候跑代码看一下。
相关推荐
hhcgchpspk2 小时前
汇编语言传递数据和地址的误区
汇编·笔记·nasm·masm
智者知已应修善业2 小时前
【51单片机2个外部中断显示中断历时,初始化8左移3位共阳数码管】2024-6-6
c++·经验分享·笔记·算法·51单片机
tq10863 小时前
OperationSequence DSL 2.1 语法规范
笔记
智者知已应修善业5 小时前
【用74LS151的实现(16序列信号发生器)】2024-6-1
驱动开发·经验分享·笔记·硬件架构·硬件工程
是上好佳佳佳呀5 小时前
【LangChain|Day04】RAG 全流程基础笔记:Document 、 Loader 和 Splitter
笔记·langchain·rag
俊男无期6 小时前
【无标题】
笔记·其他
m0_719084116 小时前
es我的笔记
大数据·笔记·elasticsearch
hhcgchpspk7 小时前
xss漏洞学习笔记
笔记·学习·网络安全·xss
nnsix7 小时前
Unity 动态批处理、静态批处理、GPU Instaning、SRP Batcher 笔记
笔记·unity·单一职责原则
情绪总是阴雨天~7 小时前
OCR光学字符识别技术:完整原理与实战学习笔记
笔记·学习·ocr