文生图模型之Stable Diffusion

原始文章地址

autoencoder

CLIP text encoder

tokenizer最大长度为77(CLIP训练时所采用的设置),当输入text的tokens数量超过77后,将进行截断,如果不足则进行paddings,这样将保证无论输入任何长度的文本(甚至是空文本)都得到77x768大小的特征

问题:当输出超长prompt会分段处理?每段的权重如何处理?

UNet

text condition将通过CrossAttention模块嵌入进来,此时Attention的query是UNet的中间特征,而key和value则是text embeddings。


SD图生图

SD Inpainting

第一种形式:

第二种形式:

相关推荐
沙漠蓝色披头6 小时前
入门Stable-Diffusion-WebUI全过程
stable diffusion
普通网友1 天前
Stable Diffusion 图片背景完美替换
人工智能·搜索引擎·ai作画·stable diffusion·midjourney
kcarly2 天前
Stable diffusion 都支持哪些模型
stable diffusion·模型
灵魂画师向阳3 天前
SD换脸插件Reactor的安装教程
人工智能·ai作画·stable diffusion·aigc·midjourney
X_taiyang184 天前
探索 Stable-Diffusion-Webui-Forge:更快的AI图像生成体验
人工智能·stable diffusion
ScienceLi11254 天前
vid2vid-zero:使用Stable Diffusion进行零样本视频编辑
stable diffusion
ScienceLi11254 天前
Stable diffusion 3.0
stable diffusion·扩散模型
蚂蚁在飞-4 天前
开源AI图像工具—Stable Diffusion
人工智能·stable diffusion
呆萌小新@渊洁4 天前
Stable Diffusion 3.5 模型在 Linux 上的部署指南
linux·运维·stable diffusion
bug404_4 天前
mac配置stable diffusion以及模型出图优化
macos·stable diffusion