【SD】深入理解Stable Diffusion与ComfyUI的使用

【SD】深入理解Stable Diffusion与ComfyUI的使用

      • [1. Stable Diffusion(SD)原理概述](#1. Stable Diffusion(SD)原理概述)
      • [2. 各部件详解](#2. 各部件详解)
      • [3. SD的工作流程](#3. SD的工作流程)
      • [4. ComfyUI与SD的结合](#4. ComfyUI与SD的结合)
      • [5. 总结](#5. 总结)

1. Stable Diffusion(SD)原理概述

  1. 整体结构:SD不是单一模型,而是由三个模型组成,包括文本编码器(Clip)、2. 生成模型(unit)、变分自编码器(VAE)。
    输入输出:最基础的输入为文本和随机变量(Latent Vector),输出为图片。

2. 各部件详解

  1. 文本编码器(Clip)

专门为SD设计的,采用transformer结构。

训练步骤包括:

限制性预训练:使用图片和文本描述数据集,训练文本编码器和图片编码器,使输出向量尽可能接近。

进一步训练:使用物体名称和描述,训练文本编码器解码出图片含义。

  1. 生成模型(unit)

加噪降噪过程:通过VAE的encoder将图片转换成与Latent Vector相同大小的格式,然后逐步加噪并降噪,生成中间结果。

  1. 变分自编码器(VAE)

包括编码器和解码器,将图片编码成较小格式,再解码回原大小,训练目标是最小化原始图片与解码结果的差异。

利用VAE可以从噪声中生成图片,即输入随机噪声至解码器,生成图片。

3. SD的工作流程

文本通过文本编码器转换为向量。

向量与随机变量结合,控制生成内容的随机性。

使用unit进行加噪降噪,生成中间结果。

中间结果通过VAE解码器还原成最终图片。

4. ComfyUI与SD的结合

ComfyUI用于低显存生成图片,但具体如何结合SD的原理和ComfyUI的操作未在文本中详述。

5. 总结

SD通过三个模型的协同工作,实现了文本到图片的生成。

Clip作为文本编码器,负责将文本转换为向量。

Unit负责生成过程的加噪和降噪,VAE则用于图片的编码和解码,最终还原成清晰图片。

整个流程涉及文本处理、随机性控制、图片生成和还原,是一个复杂但高效的生成系统。

相关推荐
雪回3 天前
基于 Stable Diffusion-WebUI 实现 LandPPT 本地模型绘图配置指南(SDWebUI )
人工智能·深度学习·ai·ai作画·stable diffusion·ppt
愚公搬代码10 天前
【愚公系列】《AI绘画:Stable Diffusion ComfyUl的艺术》007-共享WebUI 的路径
ai作画·stable diffusion
墨言智语10 天前
003、方法一进阶:AI绘画与短视频制作——用Midjourney/Stable Diffusion接单赚钱
ai作画·stable diffusion·midjourney
愚公搬代码10 天前
【愚公系列】《AI绘画:Stable Diffusion ComfyUl的艺术》008-ComfyUI整合包
ai作画·stable diffusion
OpalStag5811 天前
MusePublic Art Studio多场景:短视频封面/直播背景/AR滤镜素材生成
stable diffusion·短视频制作·内容创作·ai图像生成
日光明媚11 天前
torch.compile 与 Triton 的加速本质:从原理到实际效果
人工智能·python·计算机视觉·stable diffusion·aigc
小贺儿开发12 天前
Unity3D 本地 Stable Diffusion 文生图效果演示
人工智能·unity·stable diffusion·文生图·ai绘画·本地化
宁南山20 天前
比迪丽LoRA模型AE做片段视频素材生成:动态背景与元素创作
stable diffusion·ai绘画·lora模型·视频素材生成
日光明媚22 天前
DMD 一步扩散核心原理:从符号定义到梯度推导
人工智能·机器学习·计算机视觉·ai作画·stable diffusion·aigc
baidu_huihui24 天前
ComfyUI 是一款专为 Stable Diffusion 打造的开源可视化操作工具
stable diffusion