论文阅读-Null-text Inversion for Editing Real Images using Guided Diffusion Models

一、论文信息

作者团队:

论文链接:https://arxiv.org/pdf/2211.09794.pdf

代码链接:https://github.com/google/prompt-to-prompt

二、Conditional Diffusion(classifier-free guidance)

Classifier-free guidance方法训练:

对于有条件的训练集(如图文对数据集),以某个概率p将其中的某些条件置为空,然后进行训练。

实际生成:

三、DDIM Inversion

  • DDPM生成图像的反向去噪过程(由Xt 去预测Xt-1):

当随机噪声的系数=0,此时变为确定性采样过程,一旦初始的噪声XT确定了,样本的生成也就变为确定过程。

  • DDIM inversion:

DDIM的逆过程,即对于原图像进行加噪,最终得到一张噪声图。

将该噪声图作为采样起点进行去噪,最终又会生成原图像(即实现对原图像的重建过程)。这一整个过程常被用于图像编辑等任务。

四、Null-text Inversion

  • 动机

利用DDIM Inversion做图像重建或图像编辑任务时,直接做有条件的DDIM重建会导致误差累积,从而导致重建结果逐渐偏离原图像;

现有的图像编辑方法大多需要对模型进行微调,或对模型权重、内部结构等进行优化,操作起来比较复杂。

  • 本文方法:null-text inversion

首先对输入图像提取caption,然后在每个采样时间步t,都利用以下损失函数对null-text embedding进行优化

约束损失:

最终得到每个采样时间节点t所对应的优化后的null-text embedding,并实现对图像的重建。

利用DDIM Inversion得到的ZT和优化后的null-text embedding序列,可以实现有条件的图像编辑。

  • 实验结果

相关推荐
DuHz2 天前
无线通信与雷达感知融合的波形设计与信号处理——论文阅读(上)
论文阅读·信号处理
DuHz2 天前
无线通信与雷达感知融合的波形设计与信号处理——论文阅读(下)
论文阅读·汽车·信息与通信·信号处理
张较瘦_4 天前
[论文阅读] AI + 软件工程 | LLM救场Serverless开发!SlsReuse框架让函数复用率飙升至91%,还快了44%
论文阅读·人工智能·软件工程
m0_650108244 天前
InstructBLIP:面向通用视觉语言模型的指令微调技术解析
论文阅读·人工智能·q-former·指令微调的视觉语言大模型·零样本跨任务泛化·通用视觉语言模型
做cv的小昊4 天前
VLM经典论文阅读:【综述】An Introduction to Vision-Language Modeling
论文阅读·人工智能·计算机视觉·语言模型·自然语言处理·bert·transformer
m0_650108245 天前
PaLM-E:具身智能的多模态语言模型新范式
论文阅读·人工智能·机器人·具身智能·多模态大语言模型·palm-e·大模型驱动
m0_650108245 天前
PaLM:Pathways 驱动的大规模语言模型 scaling 实践
论文阅读·人工智能·palm·谷歌大模型·大规模语言模型·全面评估与行为分析·scaling效应
小殊小殊5 天前
【论文笔记】视频RAG-Vgent:基于图结构的视频检索推理框架
论文阅读·人工智能·深度学习
有点不太正常5 天前
《ShadowCoT: Cognitive Hijacking for Stealthy Reasoning Backdoors in LLMs》——论文阅读
论文阅读·大模型·agent安全
小殊小殊6 天前
【论文笔记】大型语言模型的知识蒸馏与数据集蒸馏
论文阅读·人工智能·深度学习