手撕Diffusion系列 - 第九期 - 改进为Stable Diffusion(原理介绍)

手撕Diffusion系列 - 第九期 - 改进为Stable Diffusion(原理介绍)

目录

  • [手撕Diffusion系列 - 第九期 - 改进为Stable Diffusion(原理介绍)](#手撕Diffusion系列 - 第九期 - 改进为Stable Diffusion(原理介绍))
  • [DDPM 原理图](#DDPM 原理图)
  • [Stable Diffusion 原理](#Stable Diffusion 原理)
    • [Stable Diffusion的原理解释](#Stable Diffusion的原理解释)
    • [Stable Diffusion 和 Diffusion 的区别](#Stable Diffusion 和 Diffusion 的区别)
    • [Stable Diffusion 的Unet图讲解](#Stable Diffusion 的Unet图讲解)
    • [Stable Diffusion 和Diffusion 的Unet对比](#Stable Diffusion 和Diffusion 的Unet对比)
  • 参考

DDPM 原理图

​ DDPM包括两个过程:前向过程(forward process)反向过程(reverse process) ,其中前向过程又称为扩散过程(diffusion process) ,如下图所示。无论是前向过程还是反向过程都是一个参数化的马尔可夫链(Markov chain),其中反向过程可以用来生成图片。


DDPM 整体大概流程

​ 图中,由高斯随机噪声 x T x_T xT 生成原始图片 x 0 x_0 x0 为反向过程,反之为前向过程(噪音扩散)。

Stable Diffusion 原理

Stable Diffusion的原理解释

Stable Diffusion的网络结构图如下图所示:


Stable Diffusion 的网络结构图

  • 我们可以发现Stable Diffsion,其实还是大部分基于Diffusion 的,基本的扩散方式没有发生改变
  • 前向扩散阶段 :还是先进行前向扩散 (如图中的上半部分所示),得到扩散后的 x t x_t xt ,就类似这里的 z T z_T zT,只不过这里把原本的图像(就是我们之前提的 x )利用 AE,VAE,VQVAE等自编码器,进行了图像特征提取 ,把隐变量(z)作为原本的真实清晰图像 ,从而一定程度上减少了计算量(改动1)。
  • 训练阶段 :如图中下半部分所示,仍然是随机生成的批量t ,利用公式得到批量的z_t ,然后对Unet输入z_t ,不过这里添加了一定的引导信息 ( 比如 MNist数据集中的label,也可以是文字信息等等(改动2) ) ,然后生成下个阶段的噪声图。损失也仍然是上个个时刻的噪声图和预测出来的噪声图之间的差距。
  • 去噪阶段 :如图中下半部分所示,输入噪声图,引导词,经过T次的去噪,然后生成清晰的图像,只不过这里图像是经过特征提取过的,所以最后利用 AE,VAE,VQVAE等自编码器的解码器,进行解码即可(改动3)

Stable Diffusion 和 Diffusion 的区别

  • 改动1 :利用 AE,VAE,VQVAE 等自编码器,进行了图像特征提取 ,利用正确提取特征后的图像作为自己原本在Diffusion中的图像
  • 改动2 :在训练过程中,额外添加了一些引导信息,促使图像生成,往我们所希望的方向去走 ,这里添加信息的方式主要是利用交叉注意力机制 (这里我看图应该是只用交叉注意力 就行,但是我看视频博主用的代码以及参照的Stable-Diffusion Unet图上都是利用的Transoformer的编码器,也就是得到注意力值之后还得进行一个feedforward层)。
  • 改动3 :利用 AE,VAE,VQVAE 等自编码器进行解码。(这个实质上和第一点是重复的)
  • 注意 :本次的代码改动先只改动第二个,也就是添加引导信息,对于编码器用于减少计算量,本次改进先不参与(555~,因为视频博主没教),后续可能会进行添加(因为也比较简单)

Stable Diffusion 的Unet图讲解

Stable Diffusion 和Diffusion 的Unet对比


原本的Unet图像


Stable Diffusion的 Unet 图像

  • 我们可以发现,两者之间的区别主要在于,在卷积完了之后添加了一个Transformer的模块,也就是其编码器将两个信息进行了融合,其他并没有改变。
  • 所以主要区别在卷积后的那一部分,如下图。


卷积后的区别

  • 这个ResnetBlock就是之前的卷积模块,作为右边的残差部分,所以这里写成 了ResnetBlock。
  • 因此,如果我们将Tranformer模块融入到Restnet模块里面 ,并且保持其输入卷积的图像和transformer输出的图像形状 一致的话,那么就其他部分完全不需要改变了,只不过里面多添加了一些引导信息 (MNIST数据集中是label,但是也可以添加文本等等引导信息) 而已。

参考

视频讲解:进化为stable的diffusion模型(可指定生成数字图片)_哔哩哔哩_bilibili

原理博客:手撕Diffusion系列 - 第一期 - DDPM原理-CSDN博客

相关推荐
智慧地球(AI·Earth)2 分钟前
OpenAI for Countries:全球AI基础设施的“技术基建革命”
开发语言·人工智能·php
AI改变未来9 分钟前
我们该如何使用DeepSeek帮我们减负?
人工智能·deepseek
武乐乐~12 分钟前
论文精读:YOLO-UniOW: Efficient Universal Open-World Object Detection
人工智能·yolo·目标检测
Leinwin13 分钟前
GPT-4.1和GPT-4.1-mini系列模型支持微调功能,助力企业级智能应用深度契合业务需求
人工智能
唐兴通个人14 分钟前
知名人工智能AI培训公开课内训课程培训师培训老师专家咨询顾问唐兴通AI在金融零售制造业医药服务业创新实践应用
人工智能
PgSheep22 分钟前
深入理解 JVM:StackOverFlow、OOM 与 GC overhead limit exceeded 的本质剖析及 Stack 与 Heap 的差异
jvm·面试
MVP-curry-萌神31 分钟前
FPGA图像处理(六)------ 图像腐蚀and图像膨胀
图像处理·人工智能·fpga开发
GUIQU.37 分钟前
【每日一题 | 2025年5.5 ~ 5.11】搜索相关题
算法·每日一题·坚持
不知名小菜鸡.37 分钟前
记录算法笔记(2025.5.13)二叉树的最大深度
笔记·算法
struggle20251 小时前
ebook2audiobook开源程序使用动态 AI 模型和语音克隆将电子书转换为带有章节和元数据的有声读物。支持 1,107+ 种语言
人工智能·开源·自动化