stable diffusion实践操作-SD原理

泰勒朗斯2023-09-02 17:53

系列文章目录

本文专门开一节写SD原理相关的内容，在看之前，可以同步关注：
stable diffusion实践操作

文章目录

系列文章目录
前言
一、原理说明
- 1.1、出图原理
- - [1.1.1 AI画画不是和人一样，从0开始，而是一个去噪点的过程：](#1.1.1 AI画画不是和人一样，从0开始，而是一个去噪点的过程：)
  - [1.1.2 逆向去噪](#1.1.2 逆向去噪)
  - [1.1.3 AI如何学会去噪点的](#1.1.3 AI如何学会去噪点的)
- 1.2、出图机制
- - [1.2.1 文字编码 CLIP](#1.2.1 文字编码 CLIP)
  - [1.2.2 图片绘制](#1.2.2 图片绘制)
  - - [1.2.2.1 随机种子和采样器](#1.2.2.1 随机种子和采样器)
    - [1.2.2.2 迭代步数](#1.2.2.2 迭代步数)
    - [1.2.2.3 采样方法](#1.2.2.3 采样方法)
  - 1.2.3放大图片
总结

前言

(后期补充)

一、原理说明

1.1、出图原理

1.1.1 AI画画不是和人一样，从0开始，而是一个去噪点的过程：

1.1.2 逆向去噪

所有的人图片都是从一张噪点图开始的。根据目标生成一张猫的图片，将噪点一步步转化为猫

1.1.3 AI如何学会去噪点的

AI首先将图片一步步加入噪点。

所以任何一张图都可以逆向这个过程

1.2、出图机制

将输入的文字进行编码传入潜空间。
在潜空间根据文字的描述，进行图片的绘制
将图片从潜空间的压缩态进行放大，补充细节，提升分辨率

1.2.1 文字编码 CLIP

计算机不能直接理解文本和图片

而是通过特征向量来标记

而这一项工作是通过CLIP模型来完成的

clip模型包括文字编码器和图片编码器，将文字和图片都编码成向量

所以CLIP设置的层数越高，图片和文字相关度越低，一般设置为2就可以了。

1.2.2 图片绘制

SD绘制图片内容的时候，并不是直接绘制512512的图片，而是绘制核心内容，64 64，然后再将图片放大还原。

所以绘图的实际过程就是去噪

1.2.2.1 随机种子和采样器

SD会根据随机种子生成一张正态分布的噪点图，然后根据传入的文字，加入是狗，去向量数据库中搜索，生成狗的去噪方式。去噪方式又是采样器进行调用的

采样器会调用Unet模型，对图片中的噪点预测，生成噪点预测图

让噪点图减去预测出的全部噪点，生成最终的模型图片

1.2.2.2 迭代步数

Unet模型在噪点多的时候，预测并不理想，所以我们并不一次性全部采纳其预测的噪点，而是每次只采用一部分噪点，循环多次

这个过程就是下面的迭代步数

设置过小，图片与文本匹配度较低，过大，则会画蛇添足，一般我们设置为20-40步即可

1.2.2.3 采样方法

采样所采用的算法，不同算法消耗的时间不同。

采样器时间对比

一般推荐大家使用DPM++ SDE Karas/DPM2++ SDE Karas

对比：

1.2.3放大图片

在潜空间产生的图片比较小，我们需要VAE将其放大，优化细节。

这就是整个过程

总结

例如：以上就是今天要讲的内容。

上一篇：http和websocket,唠一唠（二）

下一篇：Maven之hibernate-validator 高版本问题

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03AI科技热点日报 | 2026年07月01日 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07Codex 下载安装指南：Windows 和 macOS 官方版下载 08国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）09GPT-5.5 对比 GPT-5.6 Sol、Terra、Luna：官方性能数据与选型分析 10昇腾910B系列芯片完全指南：四款型号对比、服务器选型与大模型部署实战