Z-Image是阿里通义推出的高效6B参数图像生成基础模型,核心采用S³-DiT(Scalable Single-Stream Diffusion Transformer) 架构,通过单流设计实现跨模态信息的密集交互,以显著更高的参数效率达到顶尖性能。
一、整体架构概览
Z-Image的架构可分为五大核心组件,形成端到端的图像生成流水线:
| 模块 | 核心作用 | 关键特点 |
|---|---|---|
| 输入编码层 | 多模态信息统一表示 | Qwen3-4B文本编码 + SigLip-2视觉语义编码 + Flux VAE图像token化 |
| S³-DiT核心层 | 统一序列处理与跨模态融合 | 30主层 + 2噪声精炼器 + 2上下文精炼器,单流注意力机制 |
| 自适应调制层 | 时间步与条件信息注入 | AdaLN调制 + Zero-init Gate零初始化门控 |
| 提示增强器 | 复杂指令理解增强 | 外部VLM驱动,提升语义对齐能力 |
| 输出解码层 | 潜在表示到图像重建 | Flux VAE解码器,高保真度图像生成 |
二、核心模块详解
1. 输入编码系统:多模态信息的统一入口
Z-Image采用三套编码器协同工作,将不同模态信息转换为统一嵌入空间,为单流处理奠定基础:
(1) 文本编码器:Qwen3-4B
- 结构 :36层Transformer,采用GQA(Grouped Query Attention) 机制(32个查询头,分组处理键值对),RMSNorm归一化,隐藏层维度4096
- 作用 :
- 处理中英双语输入提示,生成语义丰富的文本嵌入
- 输出倒数第二层隐藏状态,保留更完整的语义信息
- 支持复杂指令理解,实现精确的文本-视觉对齐
(2) 视觉语义编码器:SigLip-2
- 结构:基于对比学习的视觉Transformer,采用ViT-L/14架构,支持图像特征提取与跨模态对齐
- 作用 :
- 从参考图像中提取高层抽象视觉语义特征(如场景布局、对象关系)
- 为图像编辑任务提供视觉指导,增强生成内容与参考图的一致性
- 构建视觉-文本共享嵌入空间,提升跨模态交互效率
(3) 图像tokenizer:Flux VAE
- 结构:AutoEncoderKL架构,包含编码器(下采样至潜在空间)和解码器(上采样重建图像),潜在维度为原图像的1/8
- 作用 :
- 将图像压缩为低维潜在表示,降低计算复杂度(参数减少99.7%)
- 保留图像高频细节与色彩信息,确保重建质量
- 生成图像token序列,与文本、视觉语义token拼接成统一输入流
2. S³-DiT核心:单流扩散Transformer架构
这是Z-Image最具创新性的部分,颠覆传统双流(文本/图像分离处理)设计,实现跨模态信息在每一层的密集交互,参数利用率提升40% :
(1) 单流序列构建
-
将三类token在序列层面拼接:
[文本token] + [视觉语义token] + [VAE图像token] + [时间步嵌入] -
统一序列长度:文本token(最长77)+视觉语义token(196)+图像token(64×64=4096)
-
优势:避免多流架构中的信息隔离,实现更高效的参数共享
(2) 单流注意力块
-
结构 :
输入 → RMSNorm → 单流多头注意力 → Zero-init Gate → 残差连接- 注意力计算:同时处理所有模态token,支持自注意力与跨模态注意力
- Zero-init Gate:初始化时输出为0,训练中逐步学习重要性权重,提升训练稳定性
-
作用 :
- 实现文本、视觉、图像信息的全局交互与融合
- 捕捉长距离依赖关系,提升语义连贯性
- 通过门控机制动态控制信息流动,增强模型鲁棒性
(3) 单流FFN块
-
结构 :
输入 → RMSNorm → 两层MLP(中间维度为隐藏层的4倍) → GELU激活 → Zero-init Gate → 残差连接- MLP采用Swish激活函数,提升非线性表达能力
- Zero-init Gate同样应用于FFN输出,控制特征传递
-
作用 :
- 对融合后的特征进行非线性变换,提取高层抽象表示
- 增强模型对复杂视觉模式的建模能力
- 与注意力块互补,共同构成Transformer的核心计算单元
(4) AdaLN调制模块
- 结构 :
- 输入:时间步嵌入 + 条件信息(文本/视觉)
- 输出:四个调制参数(scale_msa, gate_msa, scale_mlp, gate_mlp)
- 作用 :
- 将时间步信息与条件信号注入每一层,指导扩散过程
- 动态调整注意力与FFN的输出强度,提升模型适应性
- 替代传统的时间步嵌入加法,实现更精细的条件控制
3. 精炼器模块:生成质量的最后保障
Z-Image在主层之后增加了两类精炼器,专门优化生成细节:
- 噪声精炼器(2层):专注于噪声预测精度提升,减少生成图像中的伪影与噪声
- 上下文精炼器(2层):强化语义一致性,确保生成内容与输入提示的精确匹配
三、关键技术创新
1. Zero-init Gate零初始化门控机制
- 设计:在注意力块与FFN块输出端添加门控单元,初始化权重为0
- 作用 :
- 训练初期限制信息流,防止梯度爆炸,提升深层网络稳定性
- 使模型能够自适应地学习不同模态信息的重要性,动态调整特征融合比例
- 增强模型对复杂任务的适应能力,减少过拟合风险
2. 单流vs双流架构对比
| 对比项 | Z-Image单流架构 | 传统双流架构(如SD) |
|---|---|---|
| 信息处理方式 | 所有模态token拼接成单序列,统一处理 | 文本与图像token分离处理,跨模态交互有限 |
| 参数效率 | 高(提升40%),所有参数参与跨模态交互 | 低,部分参数仅处理单一模态 |
| 语义对齐能力 | 强,跨模态信息在每一层深度融合 | 较弱,主要依赖交叉注意力层交互 |
| 计算效率 | 高,减少模态切换开销 | 低,需要维护多套编码器 |
四、架构优势总结
- 极致参数效率:6B参数实现超越更大规模模型的性能,训练成本仅314K H800 GPU小时
- 密集跨模态交互:单流设计使文本、视觉、图像信息在每一层深度融合,语义对齐更精准
- 训练稳定性:Zero-init Gate与RMSNorm组合,支持深层网络稳定训练
- 灵活多任务支持:统一架构自然支持文生图、图生图、图像编辑等多种任务
- 高效推理优化:为Z-Image-Turbo的8步快速推理奠定基础,实现亚秒级生成
五、与传统扩散模型的核心差异
| 特性 | Z-Image(S³-DiT) | Stable Diffusion(U-Net) |
|---|---|---|
| 核心网络 | 单流Transformer | 双流U-Net + Cross-Attention |
| 模态融合方式 | 序列层面拼接,全程融合 | 仅在交叉注意力层融合,局部交互 |
| 参数规模 | 6B(高效) | 通常>10B(基础版) |
| 推理效率 | 高(8步Turbo版) | 中(通常20-50步) |
| 文本理解能力 | 强(Qwen3-4B编码器) | 中(CLIP编码器) |