本文是对李宏毅老师的课程的总结,B站链接如下:
stable diffusion(1)概述
讲最经典的DDPM。
1. DDPM图像生成是一个多个step的去噪过程
DDPM是一个从噪声图像中通过不断去噪(经过很多个step),生成图像的过程。
"雕像本来就已经存在石头里,只是把多余的去掉。"
问题是,这么多个step用的是同一个去噪模型吗?是的!!!但是不同的step含有的噪声大小是不一样的,所以,去噪模型还需要知道是哪个step(噪声的大小程度)。
2. 去噪模型内部机制
(1)有一个噪声预测模型(Noise Predicter),输入时带有噪声的图片和当前的step代号,输出是该图片含有的噪声
(2)带有噪声的图片减去预测的噪声
3. 如何训练这个噪声预测模型?
这个训练过程肯定需要当前这个step的噪声作为ground truth
这个ground truth其实是自己加的。这需要一个前向加噪的过程(扩散过程)。
4. 把文本加进来
需要图像文本对,LAION图像文本对5.85B
把文本输入到去噪模型中,让模型根据文本去噪。
把文本输入到去噪模型中,实际上也就是输入到噪声预测模型中.