文生图模型之Stable Diffusion

Kuekua-seu2023-08-27 11:56

原始文章地址

autoencoder

CLIP text encoder

tokenizer最大长度为77（CLIP训练时所采用的设置），当输入text的tokens数量超过77后，将进行截断，如果不足则进行paddings，这样将保证无论输入任何长度的文本（甚至是空文本）都得到77x768大小的特征

问题：当输出超长prompt会分段处理？每段的权重如何处理？

UNet

text condition将通过CrossAttention模块嵌入进来，此时Attention的query是UNet的中间特征，而key和value则是text embeddings。

SD图生图

SD Inpainting

第一种形式：

第二种形式：

上一篇：战略在集体学习过程中涌现

下一篇：C++卷积神经网络

热门推荐

012026 AI 编程工具终极实战指南：Cursor vs Claude Code vs Copilot，开发者该怎么选？022026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 03GitHub 镜像站点 042026 年 AI 大模型 & AI 编程工具实战全总结 05AI科技热点日报 | 2026年07月01日 06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 07【AI】2026 年具身智能模型和世界模型总结 082026 AI 编程工具选型横评：Cursor / Claude Code / Trae / Copilot 到底选谁（建议收藏·避坑版）092026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 10Claude Code、Codex、Cursor三分天下：2026年AI编程Agent生态全景剖析