文生图模型之Stable Diffusion

原始文章地址

autoencoder

CLIP text encoder

tokenizer最大长度为77(CLIP训练时所采用的设置),当输入text的tokens数量超过77后,将进行截断,如果不足则进行paddings,这样将保证无论输入任何长度的文本(甚至是空文本)都得到77x768大小的特征

问题:当输出超长prompt会分段处理?每段的权重如何处理?

UNet

text condition将通过CrossAttention模块嵌入进来,此时Attention的query是UNet的中间特征,而key和value则是text embeddings。


SD图生图

SD Inpainting

第一种形式:

第二种形式:

相关推荐
leafff1236 天前
Stable Diffusion在进行AI 创作时对算力的要求
人工智能·stable diffusion
leafff1236 天前
Stable Diffusion进行AIGC创作时的算力优化方案
人工智能·stable diffusion·aigc
ding_zhikai6 天前
stable-diffusion试验2-像素人物帧动画2(含 AnimeEffects 简易教程 等)
stable diffusion
ding_zhikai7 天前
SD:在一个 Ubuntu 系统安装 stable diffusion ComfyUI
linux·ubuntu·stable diffusion
ding_zhikai7 天前
stable-diffusion试验2-像素人物帧动画1
stable diffusion
wg26277 天前
Stable Diffusion 安装教程(详细)_stable diffusion安装
stable diffusion
weiwei228448 天前
ControlNet——AI图像生成的“精准操控工具”
stable diffusion·controlnet
RanceGru10 天前
LLM学习笔记5——本地部署ComfyUI和Wan2.1-T2V-1.3B文生视频模型
笔记·学习·stable diffusion·transformer
ding_zhikai11 天前
stable-diffusion试验1-静态人物
stable diffusion
love530love13 天前
【笔记】 Podman Desktop 中部署 Stable Diffusion WebUI (GPU 支持)
人工智能·windows·笔记·python·容器·stable diffusion·podman