Stable Diffusion XL网络结构-超详细原创

wu_jiacheng2023-11-23 13:56

强烈推荐先看本人的这篇

Stable Diffusion1.5网络结构-超详细原创-CSDN博客

1 Unet

1.1 详细整体结构

1.2 缩小版整体结构

以生成图像1024x1024为例，与SD1.5的3个CrossAttnDownBlock2D和CrossAttnUpBlock2D 相比，SDXL只有2个，但SDXL的CrossAttnDownBlock2D模块有了更多的Transformer模块，且只进行了两次下采样，具体的往下看

1.2.1 DownBlock2D

1.2.1.1 ResBolck2D

和SD1.5不一样的是，多了time_id这个输入，表示origin_size, target_size,以及裁剪坐标，比如图中的time_id＝ $\[1024, 1024, 0, 0, 1024, 1024$ , $1024, 1024, 0, 0, 1024, 1024$ ]

有一半是负向提示词，以 $1024, 1024, 0, 0, 1024, 1024$ ,为例，两个 $1024, 1024$ 表示origin_size, target_size， $0, 0$ 是裁剪坐标，这是SDXL在训练的时候用了一些trick,把原始输入图像和目标图像的大小，以及裁剪坐标也作为条件参与训练

Downsample2D通过步长为2的卷积进行下采样

1.2.2 CrossAttnDownBlock2D

CrossAttnDownBlock2D_1

CrossAttnDownBlock2D_1表示第一个CrossAttnDownBlock2D，它的Transformer2DModel有两个BasicTransformerBlock，而SD1.5的Transformer2DModel只有一个BasicTransformerBlock

CrossAttnDownBlock2D_2

CrossAttnDownBlock2D_2表示第2个CrossAttnDownBlock2D，它的Transformer2DModel有10个BasicTransformerBlock

1.2.3 UnetMidBlock2DCrossAttn

其中的Transformer2DModel有10个BasicTransformerBlock

1.2.4 CrossAttnUpBlock2D

CrossAttnUpBlock2D_2

CrossAttnUpBlock2D_2表示第2个CrossAttnUpBlock2D，它的Transformer2DModel有10个BasicTransformerBlock，UpSample2D和SD1.5结构一致

CrossAttnUpBlock2D_1

CrossAttnUpBlock2D_1表示第21个CrossAttnUpBlock2D，它的Transformer2DModel有2个BasicTransformerBlock

未完待续

2 CLIP

上一篇：论文笔记：Localizing Cell Towers fromCrowdsourced Measurements

下一篇：音视频项目—基于FFmpeg和SDL的音视频播放器解析（十三）

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 08AI科技热点日报 | 2026年07月01日 09Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 102026 年 AI 大模型 & AI 编程工具实战全总结