【SD】深入理解Stable Diffusion与ComfyUI的使用

【SD】深入理解Stable Diffusion与ComfyUI的使用

      • [1. Stable Diffusion(SD)原理概述](#1. Stable Diffusion(SD)原理概述)
      • [2. 各部件详解](#2. 各部件详解)
      • [3. SD的工作流程](#3. SD的工作流程)
      • [4. ComfyUI与SD的结合](#4. ComfyUI与SD的结合)
      • [5. 总结](#5. 总结)

1. Stable Diffusion(SD)原理概述

  1. 整体结构:SD不是单一模型,而是由三个模型组成,包括文本编码器(Clip)、2. 生成模型(unit)、变分自编码器(VAE)。
    输入输出:最基础的输入为文本和随机变量(Latent Vector),输出为图片。

2. 各部件详解

  1. 文本编码器(Clip)

专门为SD设计的,采用transformer结构。

训练步骤包括:

限制性预训练:使用图片和文本描述数据集,训练文本编码器和图片编码器,使输出向量尽可能接近。

进一步训练:使用物体名称和描述,训练文本编码器解码出图片含义。

  1. 生成模型(unit)

加噪降噪过程:通过VAE的encoder将图片转换成与Latent Vector相同大小的格式,然后逐步加噪并降噪,生成中间结果。

  1. 变分自编码器(VAE)

包括编码器和解码器,将图片编码成较小格式,再解码回原大小,训练目标是最小化原始图片与解码结果的差异。

利用VAE可以从噪声中生成图片,即输入随机噪声至解码器,生成图片。

3. SD的工作流程

文本通过文本编码器转换为向量。

向量与随机变量结合,控制生成内容的随机性。

使用unit进行加噪降噪,生成中间结果。

中间结果通过VAE解码器还原成最终图片。

4. ComfyUI与SD的结合

ComfyUI用于低显存生成图片,但具体如何结合SD的原理和ComfyUI的操作未在文本中详述。

5. 总结

SD通过三个模型的协同工作,实现了文本到图片的生成。

Clip作为文本编码器,负责将文本转换为向量。

Unit负责生成过程的加噪和降噪,VAE则用于图片的编码和解码,最终还原成清晰图片。

整个流程涉及文本处理、随机性控制、图片生成和还原,是一个复杂但高效的生成系统。

相关推荐
迈火3 天前
Facerestore CF (Code Former):ComfyUI人脸修复的卓越解决方案
人工智能·gpt·计算机视觉·stable diffusion·aigc·语音识别·midjourney
重启编程之路4 天前
Stable Diffusion 参数记录
stable diffusion
孤狼warrior7 天前
图像生成 Stable Diffusion模型架构介绍及使用代码 附数据集批量获取
人工智能·python·深度学习·stable diffusion·cnn·transformer·stablediffusion
love530love9 天前
【避坑指南】提示词“闹鬼”?Stable Diffusion 自动注入神秘词汇 xiao yi xian 排查全记录
人工智能·windows·stable diffusion·model keyword
世界尽头与你9 天前
Stable Diffusion web UI 未授权访问漏洞
安全·网络安全·stable diffusion·渗透测试
love530love9 天前
【故障解析】Stable Diffusion WebUI 更换主题后启动报 JSONDecodeError?可能是“主题加载”惹的祸
人工智能·windows·stable diffusion·大模型·json·stablediffusion·gradio 主题
ai_xiaogui14 天前
Stable Diffusion Web UI 绘世版 v4.6.1 整合包:一键极速部署,深度解决 AI 绘画环境配置与 CUDA 依赖难题
人工智能·stable diffusion·环境零配置·高性能内核优化·全功能插件集成·极速部署体验
微学AI15 天前
金仓数据库的新格局:以多模融合开创文档数据库
人工智能·stable diffusion
我的golang之路果然有问题15 天前
开源绘画大模型简单了解
人工智能·ai作画·stable diffusion·人工智能作画
我的golang之路果然有问题15 天前
comfyUI中的动作提取分享
人工智能·stable diffusion·ai绘画·人工智能作画·comfy