stable diffusion QA

Q:有关于扩散模型的一个点不太懂,就是损失为何是去噪Unt的输出跟随机噪声的均方差?假如是图像修复任务,那为何不是去噪结果与真实图像进行损失计算呢?

A:扩散模型simple loss将U-Net的输出与随机噪声计算MSE,其实不是为了预测噪声,而是为了解析分布,让预测结果的均值满足随机高斯分布的均值。这里是因为DDPM中 p(xt−1|xt) 的过程方差是固定的,要解析分布无非就是预测均值。而DDPM中说过直接预测随机高斯噪声的做法 会比直接预测均值的做法效果要更好 ,所以最终simple loss的形式就变成直接跟随机高斯噪声运算了。

Q:如果是图像修复任务,本身输入含有mask的图像,如果带着mask的图像进行加噪,去噪,那去噪后的图像岂不是还带着mask?mask怎么修复成真实图像呢?训练过程也没用过去噪图与真实图像做损失啊?

A:对于图像修复任务的话,如果记输入的干净图像是 x0,经过t步加噪之后的带噪图像为 xt,mask为 m,通常会有一步 x^t=xt⊙m+x0⊙(1−m)的compse操作,同时U-Net的输入通常会有一个额外的channel用于mask的concat,然后再将 x^t和 m的concatenation送入U-Net预测噪声,这样U-Net学习到的分布就是mask区域内部的,同时模型也能够接受mask的输入,在sampling的时候就会仅生成mask区域的内容了。

Q:文生图任务去噪Unet的输入是4通道,本身图片是3通道,那为何要变成4通道进去?额外一个通道哪里来的?

A:4通道是vae隐空间特征的形状,后面SD3都把通道数扩到了64了。

Q:修复的时候,在测试中采样阶段会事先生成一个跟原始输入相同纬度的假图像(全是噪声)然后用这个假图像来进行去噪,真实的带有mask的输入图像跟这个假图像做concat操作,也就是其实输入带有mask的图像,其实相当于一个控制条件?而真正进入Unet去噪的图像还是随机生成的高斯噪声图像?

A:送入unet去噪的图像是噪声潜变量+masked image+mask的concat组合,训练中模型可以学到mask区域的修复,因为你除mask区域之外的相当于把gt给模型了,不用学了。

Q:在pipline中有一行代码是latents = (init_latents_proper * mask) + (latents * (1 - mask)) 这里直接对latent添加mask给我造成很大疑惑,image经过encode后,在latent中的信息不应该没有一一对应的关系嘛?就比如我在(20,20)处有一个点是红色但是经过encode后这个红色点对应的信息不一定在(20,20)处了。那我给latent直接添加mask后经过decode产生的图像和原来mask的位置是怎么对应上的?

A:VQGAN压缩后的表征跟RGB空间中的图像是有一定空间一致性的,RGB空间图像下采样8倍跟VQGAN空间的latent feature是有对应关系的 ,做inpainting的时候直接把下采样之后的mask打到latent feature上就可以了。

T1:矩阵乘积AB与SD模型的参数有相同的维度,同时分解出来的两个较小矩阵可以确保参数更新是在低秩情况下的,这样就显著减少训练的参数数量了。通常来说,对于矩阵𝐴,我们使用随机高斯分布初始化,并对于矩阵𝐵使用全0初始化,使得在初始状态下这两个矩阵相乘的结果为0。这样能够保证在初始阶段时,只有SD模型(主模型)生效。b的偏导数(梯度)不是0哈,经过第一次反向传播之后b就有非0值了。

T2:

相关推荐
minos.cpp1 天前
Mac上Stable Diffusion的环境搭建(还算比较简单)
macos·ai作画·stable diffusion·aigc
不当菜鸡的程序媛3 天前
Stable Diffusion模型微调LORA及其变种介绍
stable diffusion
AIGC安琪3 天前
只需3步,使用Stable Diffusion无限生成AI数字人视频
人工智能·stable diffusion·数字人·sd·sd教程
AI绘画咪酱4 天前
【AIGC】ComfyUI 入门教程(4):ComfyUI 管理器|AI 生成图片
人工智能·stable diffusion·aigc
我算是程序猿4 天前
Stable Diffusion4.9.0(Ai绘画)安装教程
人工智能·ai作画·stable diffusion·aigc
AI绘画君4 天前
Stable Diffusion【二次元模型】:最受欢迎的通用二次元大模型AWPainting
linux·服务器·人工智能·ai作画·stable diffusion
不秃头de程序猿4 天前
AI绘画Stable Diffusion ,3种方法精确控制人物姿势,总有一种适合你!
大数据·人工智能·ai作画·stable diffusion·aigc·sd
AI码上来4 天前
【保姆级教程】Linux上部署Stable Diffusion WebUI和LoRA训练,拥有你的专属图片生成模型
linux·人工智能·python·stable diffusion
写编程的木木4 天前
可能是最强文生图工具:Stable Diffusion 3 超详细测试
人工智能·ai作画·stable diffusion·aigc·embedding
灵魂画师向阳4 天前
Ai绘画工具Stable Diffusion,最全提示词使用指南!建议收藏!
人工智能·ai作画·stable diffusion·aigc·ai绘画