Z-Image模型架构全解析

Z-Image是阿里通义推出的高效6B参数图像生成基础模型，核心采用S³-DiT(Scalable Single-Stream Diffusion Transformer) 架构，通过单流设计实现跨模态信息的密集交互，以显著更高的参数效率达到顶尖性能。

Z-Image的架构可分为五大核心组件，形成端到端的图像生成流水线：

模块	核心作用	关键特点
输入编码层	多模态信息统一表示	Qwen3-4B文本编码 + SigLip-2视觉语义编码 + Flux VAE图像token化
S³-DiT核心层	统一序列处理与跨模态融合	30主层 + 2噪声精炼器 + 2上下文精炼器，单流注意力机制
自适应调制层	时间步与条件信息注入	AdaLN调制 + Zero-init Gate零初始化门控
提示增强器	复杂指令理解增强	外部VLM驱动，提升语义对齐能力
输出解码层	潜在表示到图像重建	Flux VAE解码器，高保真度图像生成

Z-Image采用三套编码器协同工作，将不同模态信息转换为统一嵌入空间，为单流处理奠定基础：

结构：36层Transformer，采用GQA(Grouped Query Attention) 机制(32个查询头，分组处理键值对)，RMSNorm归一化，隐藏层维度4096
作用：
- 处理中英双语输入提示，生成语义丰富的文本嵌入
- 输出倒数第二层隐藏状态，保留更完整的语义信息
- 支持复杂指令理解，实现精确的文本-视觉对齐

结构：基于对比学习的视觉Transformer，采用ViT-L/14架构，支持图像特征提取与跨模态对齐
作用：
- 从参考图像中提取高层抽象视觉语义特征(如场景布局、对象关系)
- 为图像编辑任务提供视觉指导，增强生成内容与参考图的一致性
- 构建视觉-文本共享嵌入空间，提升跨模态交互效率

结构：AutoEncoderKL架构，包含编码器(下采样至潜在空间)和解码器(上采样重建图像)，潜在维度为原图像的1/8
作用：
- 将图像压缩为低维潜在表示，降低计算复杂度(参数减少99.7%)
- 保留图像高频细节与色彩信息，确保重建质量
- 生成图像token序列，与文本、视觉语义token拼接成统一输入流

这是Z-Image最具创新性的部分，颠覆传统双流(文本/图像分离处理)设计，实现跨模态信息在每一层的密集交互，参数利用率提升40% ：

将三类token在序列层面拼接：

复制代码

[文本token] + [视觉语义token] + [VAE图像token] + [时间步嵌入]

结构：
复制代码
```
输入 → RMSNorm → 两层MLP(中间维度为隐藏层的4倍) → GELU激活 → Zero-init Gate → 残差连接
```
- MLP采用Swish激活函数，提升非线性表达能力
- Zero-init Gate同样应用于FFN输出，控制特征传递
作用：
- 对融合后的特征进行非线性变换，提取高层抽象表示
- 增强模型对复杂视觉模式的建模能力
- 与注意力块互补，共同构成Transformer的核心计算单元

结构：
- 输入：时间步嵌入 + 条件信息(文本/视觉)
- 输出：四个调制参数(scale_msa, gate_msa, scale_mlp, gate_mlp)
作用：
- 将时间步信息与条件信号注入每一层，指导扩散过程
- 动态调整注意力与FFN的输出强度，提升模型适应性
- 替代传统的时间步嵌入加法，实现更精细的条件控制

Z-Image在主层之后增加了两类精炼器，专门优化生成细节：

设计：在注意力块与FFN块输出端添加门控单元，初始化权重为0
作用：
- 训练初期限制信息流，防止梯度爆炸，提升深层网络稳定性
- 使模型能够自适应地学习不同模态信息的重要性，动态调整特征融合比例
- 增强模型对复杂任务的适应能力，减少过拟合风险