- 这是一篇港科大学生在google research 实习期间发在ECCV2024的语义引导生成式修复的文章,港科大陈启峰也挂了名字。从首页图看效果确实很惊艳,尤其是第三行能用文本调控修复结果牌上的字。不过看起来更倾向于生成,对原图内容并不是很复原(不过在生成式方法中已经做得很好了),适合超级噪声图这种原图信息丢失十分严重的场景:
- 整体方法流程如下图所示,用的是stable diffusion的框架,甚至模型参数都是pretrain好后fix住的,在此之上,用controlnet的风格添加了另外一部分网络,来接收restoration的描述和degraded image,网络中的feature来调制这个train好的stable diffusion的unet中的feature,然后是可train的:
- 现在diffusion有了两个目标,一个是原有的stable diffusion在denoise的过程中还是文本梯度,另一个是最终生成的图片要和输入的LQ图片内容一致,而这部分梯度分开由需要train的那个网络承担。:
- 可以看到,这个方法的PSNR确实不高,但是视觉效果真的很好,泛化性感觉也不错:
- 如果要一言以蔽之,这个工作可以说是controlnet的restoration 特供版,不过确实做得不错,可惜没看到有开源。
SPIRE: Semantic Prompt-Driven Image Restoration 论文阅读笔记
ssf-yasuo2024-11-08 11:47
相关推荐
Yawesh_best32 分钟前
思源笔记轻松连接本地Ollama大语言模型,开启AI写作新体验!大拨鼠1 小时前
【多模态读论文系列】MINIGPT-4论文笔记计算机-秋大田1 小时前
基于Spring Boot的船舶监造系统的设计与实现,LW+源码+讲解CXDNW2 小时前
【网络面试篇】HTTP(2)(笔记)——http、https、http1.1、http2.0使者大牙2 小时前
【大语言模型学习笔记】第一篇:LLM大规模语言模型介绍ajsbxi2 小时前
苍穹外卖学习记录TeYiToKu3 小时前
笔记整理—linux驱动开发部分(9)framebuffer驱动框架dsywws3 小时前
Linux学习笔记之时间日期和查找和解压缩指令YMWM_4 小时前
论文阅读《Structure-from-Motion Revisited》