DiffIR论文阅读笔记

  • ICCV2023的一篇用diffusion模型做Image Restoration的论文,一作是清华的教授,还在NIPS2023上一作发表了Hierarchical Integration Diffusion Model for Realistic Image Deblurring,作者里甚至有Luc Van Gool大佬。
  • 模型分三个部分,一个是CPEN用来提取IPR,一个是DIRformer,用来完成restoration任务,一个是denoising network,用diffusion的方式来预测IPR。分两阶段训练,第一阶段先train CPEN和DIRformer,第二阶段再train denoising network。如此看来其实思想和stable diffusion很像,就是不在图像域上diffusion,这样size太大而且step太多,而是在特征域上diffusion,本文就是在IPR上diffusion
  • 方法的细节上图都有。首先CPEN是一个从输入和GT的concatenate中提取一维向量,用这个一维向量参与到用于restoration的transformer中的channel-wise调制过程。第一阶段是这个restoration network和这个CPEN的联合训练,损失是restoration结果和GT之间的L1损失。这里引进GT是为了这个向量能提取得更好一点,从而使得整个过程的PSNR更高一点。
  • 但实际应用中我们不可能有GT来作为输入,所以第二阶段我们需要train一个diffusion model来从LQ图片中预测z。这里diffusion还是老一套,认为一阶段train好的CPEN提取的z是x0,然后加噪到xt,reverse的过程就是从xt去噪预测x0的过程。diffusion模型的输入由3部分组成,首先当然是上一步的Zt,然后是t,接着是作为条件输入的D,这个D是用一个新的CPEN从LQ中提取的,称为CPEN2,他和第一阶段的CPEN在网络结构上是一样的(除了输入层)。这个很好理解,如果没有D作为条件,那不就相当于要diffusion模型从噪声预测一个z出来,那这个z当然和input无关,所以需要额外添加一个D作为条件,这也是很多用diffusion做restoration的思路。第二阶段需要混合训练CPEN2,denoising network和restoration network,损失函数是restoration结果 和GT之间的L1损失,以及diffusion预测的IPR和第一阶段的CPEN预测的IPR之间的L1损失。
  • 感觉这个工作怪怪的,restoraion一般比较关注的去噪没有做,居然做了inpainting。选的三个任务是超分,inpainting和deblurring这三个任务。此外,这个IPR向量仅仅是通道调制,在我看来更多可能影响风格信息,用diffusion模型来预测这个IPR向量真的有必要吗?对这个工作实际效果持怀疑态度,到时候跑代码看一下。
相关推荐
网安INF16 分钟前
【论文阅读】-《RayS: A Ray Searching Method for Hard-label Adversarial Attack》
论文阅读·人工智能·深度学习·计算机视觉·网络安全·对抗攻击
walnut_oyb18 分钟前
论文阅读|CVPR 2025|Mamba进一步研究|GroupMamba
论文阅读·人工智能·神经网络·计算机视觉·分类
行然梦实21 分钟前
论文阅读:《多目标和多目标优化的回顾与评估:方法和算法》
论文阅读·算法·机器学习·数学建模
CV-杨帆22 分钟前
论文阅读:2024 arxiv AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks
论文阅读
rannn_1113 小时前
【MySQL学习|黑马笔记|Day3】多表查询(多表关系、内连接、外连接、自连接、联合查询、子查询),事务(简介、操作、四大体系、并发事务问题、事务隔离级别)
数据库·笔记·后端·学习·mysql
五行缺弦4 小时前
Java 笔记 transient 用法
java·笔记
使一颗心免于哀伤5 小时前
《设计模式之禅》笔记摘录 - 11.策略模式
笔记·设计模式
sealaugh325 小时前
aws(学习笔记第五十课) ECS集中练习(2)
笔记·学习·aws
ATaylorSu5 小时前
排序算法入门:直接插入排序详解
笔记·学习·算法·排序算法
三不原则5 小时前
运维笔记:HTTP 性能优化
运维·笔记·http