SPIRE: Semantic Prompt-Driven Image Restoration 论文阅读笔记

  • 这是一篇港科大学生在google research 实习期间发在ECCV2024的语义引导生成式修复的文章,港科大陈启峰也挂了名字。从首页图看效果确实很惊艳,尤其是第三行能用文本调控修复结果牌上的字。不过看起来更倾向于生成,对原图内容并不是很复原(不过在生成式方法中已经做得很好了),适合超级噪声图这种原图信息丢失十分严重的场景:
  • 整体方法流程如下图所示,用的是stable diffusion的框架,甚至模型参数都是pretrain好后fix住的,在此之上,用controlnet的风格添加了另外一部分网络,来接收restoration的描述和degraded image,网络中的feature来调制这个train好的stable diffusion的unet中的feature,然后是可train的:
  • 现在diffusion有了两个目标,一个是原有的stable diffusion在denoise的过程中还是文本梯度,另一个是最终生成的图片要和输入的LQ图片内容一致,而这部分梯度分开由需要train的那个网络承担。:
  • 可以看到,这个方法的PSNR确实不高,但是视觉效果真的很好,泛化性感觉也不错:


  • 如果要一言以蔽之,这个工作可以说是controlnet的restoration 特供版,不过确实做得不错,可惜没看到有开源。
相关推荐
日更嵌入式的打工仔21 分钟前
嵌入式软件开发工具与方法
笔记
浅念-21 分钟前
C语言——自定义类型:结构体、联合体、枚举
c语言·开发语言·数据结构·c++·笔记·学习·html
sayang_shao26 分钟前
YOLOv8n 输入输出格式笔记
笔记·yolo
AI视觉网奇27 分钟前
ue slot 插槽用法笔记
笔记·学习·ue5
Jack___Xue29 分钟前
LangGraph学习笔记(二)---核心组件与工作流人机交互
笔记·学习·人机交互
AI视觉网奇43 分钟前
blender fbx 比例不对 比例调整
笔记·学习·ue5
想你依然心痛1 小时前
Spark大数据分析与实战笔记(第六章 Kafka分布式发布订阅消息系统-03)
笔记·分布式·spark·kafka
西柚小萌新1 小时前
【论文阅读】--VICoT-Agent:用于可解释多模态推理和可扩展遥感分析的视觉交错思维链框架
论文阅读
雁于飞1 小时前
【无标题】
笔记·面试·职场和发展·跳槽·产品经理·创业创新·学习方法
Z.风止1 小时前
Go-learning(1)
开发语言·笔记·后端·golang