stable diffusion QA

Q:有关于扩散模型的一个点不太懂,就是损失为何是去噪Unt的输出跟随机噪声的均方差?假如是图像修复任务,那为何不是去噪结果与真实图像进行损失计算呢?

A:扩散模型simple loss将U-Net的输出与随机噪声计算MSE,其实不是为了预测噪声,而是为了解析分布,让预测结果的均值满足随机高斯分布的均值。这里是因为DDPM中 p(xt−1|xt) 的过程方差是固定的,要解析分布无非就是预测均值。而DDPM中说过直接预测随机高斯噪声的做法 会比直接预测均值的做法效果要更好 ,所以最终simple loss的形式就变成直接跟随机高斯噪声运算了。

Q:如果是图像修复任务,本身输入含有mask的图像,如果带着mask的图像进行加噪,去噪,那去噪后的图像岂不是还带着mask?mask怎么修复成真实图像呢?训练过程也没用过去噪图与真实图像做损失啊?

A:对于图像修复任务的话,如果记输入的干净图像是 x0,经过t步加噪之后的带噪图像为 xt,mask为 m,通常会有一步 x^t=xt⊙m+x0⊙(1−m)的compse操作,同时U-Net的输入通常会有一个额外的channel用于mask的concat,然后再将 x^t和 m的concatenation送入U-Net预测噪声,这样U-Net学习到的分布就是mask区域内部的,同时模型也能够接受mask的输入,在sampling的时候就会仅生成mask区域的内容了。

Q:文生图任务去噪Unet的输入是4通道,本身图片是3通道,那为何要变成4通道进去?额外一个通道哪里来的?

A:4通道是vae隐空间特征的形状,后面SD3都把通道数扩到了64了。

Q:修复的时候,在测试中采样阶段会事先生成一个跟原始输入相同纬度的假图像(全是噪声)然后用这个假图像来进行去噪,真实的带有mask的输入图像跟这个假图像做concat操作,也就是其实输入带有mask的图像,其实相当于一个控制条件?而真正进入Unet去噪的图像还是随机生成的高斯噪声图像?

A:送入unet去噪的图像是噪声潜变量+masked image+mask的concat组合,训练中模型可以学到mask区域的修复,因为你除mask区域之外的相当于把gt给模型了,不用学了。

Q:在pipline中有一行代码是latents = (init_latents_proper * mask) + (latents * (1 - mask)) 这里直接对latent添加mask给我造成很大疑惑,image经过encode后,在latent中的信息不应该没有一一对应的关系嘛?就比如我在(20,20)处有一个点是红色但是经过encode后这个红色点对应的信息不一定在(20,20)处了。那我给latent直接添加mask后经过decode产生的图像和原来mask的位置是怎么对应上的?

A:VQGAN压缩后的表征跟RGB空间中的图像是有一定空间一致性的,RGB空间图像下采样8倍跟VQGAN空间的latent feature是有对应关系的 ,做inpainting的时候直接把下采样之后的mask打到latent feature上就可以了。

T1:矩阵乘积AB与SD模型的参数有相同的维度,同时分解出来的两个较小矩阵可以确保参数更新是在低秩情况下的,这样就显著减少训练的参数数量了。通常来说,对于矩阵𝐴,我们使用随机高斯分布初始化,并对于矩阵𝐵使用全0初始化,使得在初始状态下这两个矩阵相乘的结果为0。这样能够保证在初始阶段时,只有SD模型(主模型)生效。b的偏导数(梯度)不是0哈,经过第一次反向传播之后b就有非0值了。

T2:

相关推荐
AI绘画月月7 小时前
AI绘画 | Stable Diffusion 图片背景完美替换
图像处理·人工智能·计算机视觉·ai作画·stable diffusion·midjourney·sd
Liudef062 天前
Stable Diffusion LoRA模型训练:图片收集与处理完全攻略
人工智能·stable diffusion
是你的小熊啊3 天前
stable diffusion 本地部署教程 2025最新版
stable diffusion
不会kao代码的小王3 天前
DeepSeek-R1国产大模型实战:从私有化部署到内网穿透远程使用全攻略
学习·安全·ai·stable diffusion·开源
love530love3 天前
stable diffusion webui 更改为python3.11版本运行Windows11
stable diffusion·python3.11
放羊郎4 天前
本地文生图使用插件(Stable Diffusion)
stable diffusion·prompt·插件
ai问道武曲5 天前
ai画图comfyUI节点式工作流,私有化本地部署。stable diffusion 一键安装三秒出图。
人工智能·ai·ai作画·stable diffusion·aigc
小蒋的技术栈记录5 天前
第三课:Stable Diffusion图生图入门及应用
stable diffusion
尚早立志5 天前
mac m3 pro 部署 stable diffusion webui
stable diffusion·aigc
是馄饨呀6 天前
【AI】MAC版本本地Stable Diffusion web ui安装
人工智能·stable diffusion