Stable diffusion（一）

70pice2024-03-14 11:32

Stable diffusion 原理解读

名词解释

正向扩散（Fixed Forward Diffusion Process）：
反向扩散（Generative Reverse Denoising Process）
VAE（Variational AutoEncoder）：一个用于压缩图片的神经网络，按照我的理解，通过这个模组的图片/文本，将被映射更加精确的向量。
Latent Space（潜变量空间）：被VAE压缩/升维后的向量。
Unet：一个用来预测噪声的图像分割模型
CLIP：Tokenizer + Text Encode
Sampler：控制迭代次数和迭代总数的规划期。可以有线性规划等规划方式，去分配，在训练中，每一个epoch中加入多少次噪音。
- 迭代次数：epoch
- 迭代总数：要加多少次噪音。

Unet原理分析

图像分割的几种分类。图像分割，就是将像素点达标成thing的过程。
网络结构
网络结构就是卷积下采样 + 反卷积/反池化上采样的过程
训练集样例
Unet 在stable diffusion中的使用。Unet是用于图像分割的，用于预测像素的分类。在stable diffusion中，就使用它预测噪声，去除噪声。
1. 在一张图像中，加入随机生成噪声，并且将这张图片和这个噪声分类放到训练集中去。那么就可以通过一张图片，获得有很多图片的训练集。
2. 训练Unet，将图片中的噪音点打标出来。输入图片，输出噪音。并且将噪音去除，就能从一个噪音图片中还原出一个图像~

图生图/文生图

将图片压缩成潜在变量/在潜在空间中latent space中随机生成一个噪音图片
加入随机噪声/文生图略
Unet 预测噪声、去噪
生成新的图片

上一篇：理解深度学习：第十四章无监督学习

下一篇：【JavaScript】面试手撕柯里化函数

热门推荐

01GitHub 镜像站点 02OpenClaw 使用和管理 MCP 完全指南 03OpenClaw + 飞书（Feishu）环境搭建指南 04小黑课堂计算机二级WPSoffice题库软件下载安装教程（2026年3月最新版）05Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 06OpenClaw优化飞书API 额度已耗尽问题 07Clawdbot部署教程：解决‘gateway token missing’授权问题的完整步骤 08Window 10部署openclaw报错node.exe : npm error code 128 09【OpenClaw 本地实战 Ep.3】突破瓶颈：强制修改 openclaw.json 解锁 32k 上下文记忆 10OpenClaw大龙虾机器人完整安装教程