stable diffusion QA

Q:有关于扩散模型的一个点不太懂,就是损失为何是去噪Unt的输出跟随机噪声的均方差?假如是图像修复任务,那为何不是去噪结果与真实图像进行损失计算呢?

A:扩散模型simple loss将U-Net的输出与随机噪声计算MSE,其实不是为了预测噪声,而是为了解析分布,让预测结果的均值满足随机高斯分布的均值。这里是因为DDPM中 p(xt−1|xt) 的过程方差是固定的,要解析分布无非就是预测均值。而DDPM中说过直接预测随机高斯噪声的做法 会比直接预测均值的做法效果要更好 ,所以最终simple loss的形式就变成直接跟随机高斯噪声运算了。

Q:如果是图像修复任务,本身输入含有mask的图像,如果带着mask的图像进行加噪,去噪,那去噪后的图像岂不是还带着mask?mask怎么修复成真实图像呢?训练过程也没用过去噪图与真实图像做损失啊?

A:对于图像修复任务的话,如果记输入的干净图像是 x0,经过t步加噪之后的带噪图像为 xt,mask为 m,通常会有一步 x^t=xt⊙m+x0⊙(1−m)的compse操作,同时U-Net的输入通常会有一个额外的channel用于mask的concat,然后再将 x^t和 m的concatenation送入U-Net预测噪声,这样U-Net学习到的分布就是mask区域内部的,同时模型也能够接受mask的输入,在sampling的时候就会仅生成mask区域的内容了。

Q:文生图任务去噪Unet的输入是4通道,本身图片是3通道,那为何要变成4通道进去?额外一个通道哪里来的?

A:4通道是vae隐空间特征的形状,后面SD3都把通道数扩到了64了。

Q:修复的时候,在测试中采样阶段会事先生成一个跟原始输入相同纬度的假图像(全是噪声)然后用这个假图像来进行去噪,真实的带有mask的输入图像跟这个假图像做concat操作,也就是其实输入带有mask的图像,其实相当于一个控制条件?而真正进入Unet去噪的图像还是随机生成的高斯噪声图像?

A:送入unet去噪的图像是噪声潜变量+masked image+mask的concat组合,训练中模型可以学到mask区域的修复,因为你除mask区域之外的相当于把gt给模型了,不用学了。

Q:在pipline中有一行代码是latents = (init_latents_proper * mask) + (latents * (1 - mask)) 这里直接对latent添加mask给我造成很大疑惑,image经过encode后,在latent中的信息不应该没有一一对应的关系嘛?就比如我在(20,20)处有一个点是红色但是经过encode后这个红色点对应的信息不一定在(20,20)处了。那我给latent直接添加mask后经过decode产生的图像和原来mask的位置是怎么对应上的?

A:VQGAN压缩后的表征跟RGB空间中的图像是有一定空间一致性的,RGB空间图像下采样8倍跟VQGAN空间的latent feature是有对应关系的 ,做inpainting的时候直接把下采样之后的mask打到latent feature上就可以了。

T1:矩阵乘积AB与SD模型的参数有相同的维度,同时分解出来的两个较小矩阵可以确保参数更新是在低秩情况下的,这样就显著减少训练的参数数量了。通常来说,对于矩阵𝐴,我们使用随机高斯分布初始化,并对于矩阵𝐵使用全0初始化,使得在初始状态下这两个矩阵相乘的结果为0。这样能够保证在初始阶段时,只有SD模型(主模型)生效。b的偏导数(梯度)不是0哈,经过第一次反向传播之后b就有非0值了。

T2:

相关推荐
源客z8 小时前
搭建Stable Diffusion图像生成系统实现通过网址访问(Ngrok+Flask实现项目系统公网测试,轻量易部署)
stable diffusion
源客z1 天前
搭建 Stable Diffusion 图像生成系统并通过 Ngrok 暴露到公网(实现本地系统网络访问)——项目记录
stable diffusion
朴拙数科3 天前
Stable Diffusion秋叶整合包V4独立版Python本地API连接指南
开发语言·python·stable diffusion
璇转的鱼4 天前
爆肝整理!Stable Diffusion的完全使用手册(二)
人工智能·ai作画·stable diffusion·aigc
曲幽5 天前
Stable Diffusion LoRA模型加载实现风格自由
python·ai·stable diffusion·lora·文生图·diffusers
nan_black7 天前
在Pycharm配置stable diffusion环境(使用conda虚拟环境)
stable diffusion·pycharm·conda
AI绘画咪酱7 天前
Stable Diffusion【进阶篇】:如何实现人脸一致
人工智能·深度学习·学习·机器学习·ai作画·stable diffusion
AIGC-Lison8 天前
AI绘画SD中,如何保持生成人物角色脸部一致?Stable Diffusion精准控制AI人像一致性两种实用方法教程!
人工智能·ai作画·stable diffusion·midjourney·sd
AI绘画咪酱9 天前
SD教程|巧用Stable Diffusion,实现不同风格的LOGO设计|实战篇幅,建议收藏!
人工智能·学习·ai作画·stable diffusion·sd
AI绘画咪酱10 天前
【CSDN首发】Stable Diffusion从零到精通学习路线分享
人工智能·学习·macos·ai作画·stable diffusion·aigc