RestoreFormer++: Towards Real-World Blind Face Restoration from Undegraded Key-Value Pairs(IEEE,2023,8)

RestoreFormer++: Towards Real-World Blind Face Restoration from Undegraded Key-Value Pairs(IEEE,2023,8)

Paper
GitHub

动机:认为之前的模型都只关注了图像的纹理信息,而忽视了人脸的细节信息,本文采用多尺度、交叉注意力的方式引入模型的语义信息.

总体可以分为两大部分:

  • Encoder和Decoder部分,Encoder和Decoder部分整体类似于transformer,只不过QKV并不是采用的Linear,而是Conv2D来进行映射的
  • VQVAE部分.VQVAE在Encoder和Decoder中间的潜空间进行的,并且VQVAE的输出作为Decoder的Q来进行Cross Attention,作者认为之间构建的Facial Component Dictionary并没有包含足够的语义信息,通过VQVAE进行编码的ROHQD能够包含更多的细节信息.

  • EDM,Extending Degraded Model,为了构建和真实世界类似的模糊的数据集,必须要使用一个模型模拟真实世界图像的退化过程.本文这个EDM缝合和高斯噪声、雾化等过程.

另吐槽:本文用了大量的辅助loss函数,似乎为了增强指标,具体有perceptual loss、discriminator loss、identity loss,并且判别损失不仅用在图像,也用在了对人脸关键部位的判别上.

TODO:之后在做超分的任务时可以关注一下这个EDM构造数据集的做法.

相关推荐
reddingtons1 小时前
【游戏宣发】PS “生成式扩展”流,30秒无损适配全渠道KV
游戏·设计模式·新媒体运营·prompt·aigc·教育电商·游戏美术
小和尚同志2 小时前
虽然 V0 很强大,但是ScreenshotToCode 依旧有市场
人工智能·aigc
后端小肥肠4 小时前
18条作品狂揽390万赞?我用Coze破解了“情绪放大镜”的流量密码
人工智能·aigc·coze
Electrolux6 小时前
[wllama]纯前端实现大语言模型调用:在浏览器里跑 AI 是什么体验。以调用腾讯 HY-MT1.5 混元翻译模型为例
前端·aigc·ai编程
147AI9 小时前
LLM 应用评测闭环:eval.jsonl + LLM-as-judge + 线上指标(含 Python 最小实现)
aigc·ai编程
哥只是传说中的小白9 小时前
Nano Banana Pro高并发接入Grsai Api实战!0.09/张无限批量生成(附接入实战+开源工具)
开发语言·数据库·ai作画·开源·aigc·php·api
向量引擎9 小时前
【万字硬核】解密GPT-5.2-Pro与Sora2底层架构:从Transformer到世界模型,手撸一个高并发AI中台(附Python源码+压测报告)
人工智能·gpt·ai·aigc·ai编程·ai写作·api调用
DisonTangor11 小时前
UltraShape 1.0: 高保真三维形状生成:基于可扩展几何优化
人工智能·3d·开源·aigc
GISer_Jing13 小时前
智能体基础执行模式实战:拆解、决策、并行、自优化
人工智能·设计模式·aigc
Mintopia14 小时前
🌍 AI 自主决策:从文字到图像与声音的三元赋能之路
人工智能·算法·aigc