GPT-Image-2 的核心架构变革在于用扩散 Transformer(DiT)替代了 DALL·E 3 的 U-Net 骨干,文本渲染准确率从约 70% 提升至约 92%,空间推理准确率从约 55% 提升至约 85%。本文从架构原理、核心模块、采样策略三个维度,系统拆解这一迭代的技术细节。
一、图像生成架构的三代演进
图像生成模型经历了三代核心架构的迭代:第一代 VAE(变分自编码器)通过压缩-解压实现生成,质量有限;第二代 GAN(生成对抗网络)引入对抗训练,但训练不稳定;第三代扩散模型逐步成为主流。
在扩散模型内部,去噪网络的骨干架构又经历了从 U-Net 到 DiT 的关键转变。U-Net 架构主导了 Stable Diffusion 1.5/2.1、DALL·E 3 等模型,而 DiT 架构则被 Stable Diffusion 3、FLUX、Sora 以及 GPT-Image-2 采用。
| 时代 | 架构 | 核心思路 | 代表模型 |
|---|---|---|---|
| 第一代 | VAE | 压缩再解压 | 早期图像生成 |
| 第二代 | GAN | 对抗训练 | StyleGAN |
| 第三代(U-Net) | 扩散+U-Net | 编码器-解码器去噪 | SD 1.5、DALL·E 3 |
| 第三代(DiT) | 扩散+Transformer | 全局注意力去噪 | SD3、FLUX、GPT-Image-2 |
二、U-Net 架构的原理与局限
U-Net 最初为医学图像分割设计,后被 Stable Diffusion 系列引入作为去噪网络骨干。其结构由编码器(下采样)、解码器(上采样)和跳跃连接三部分组成。
U-Net 的工作方式
编码器逐步将图像压缩为低分辨率特征图,解码器逐步恢复为原始分辨率。跳跃连接将编码器各层的特征直接传递给解码器对应层,保留多尺度信息。在扩散模型中,U-Net 接收含噪图像和时间步信息,预测并去除噪声。
U-Net 的核心局限
感受野受限: U-Net 的卷积操作是局部的,感受野大小取决于网络深度。对于远距离空间关系(如画面左侧的人物和右侧的倒影),U-Net 需要多层卷积才能建立关联,信息传递存在衰减。
扩展性瓶颈: CNN 架构的参数量与计算量呈线性关系,增加模型容量的边际收益递减。在 Scaling Law 方面,U-Net 不如 Transformer 架构高效。
多模态融合困难: U-Net 通常通过交叉注意力接收文本条件,但这种融合是"外挂式"的,文本理解与图像生成仍是两个独立流程。
三、DiT 架构的核心设计
GPT-Image-2 采用的 Diffusion Transformer(DiT)架构,从根本上改变了去噪网络的设计思路。
Patch Embedding:图像的 Token 化
DiT 的第一步是将图像切分为固定大小的 patch。对于 1024×1024 的输入图像,使用 16×16 的 patch 大小,将得到 64×64=4096 个 patch token。每个 patch 通过线性投影层映射到模型的隐藏维度(通常为 1024 或 2048)。
这种设计将图像处理转化为序列建模问题,直接复用 Transformer 在 NLP 领域验证过的 Scaling Law。
2D 旋转位置编码(RoPE)
标准 Transformer 使用一维固定位置编码,但图像具有二维空间结构。GPT-Image-2 采用 2D 旋转位置编码(RoPE),同时编码 patch 在图像中的行和列位置信息。
2D RoPE 的优势在于:保留了图像的二维空间结构,使模型能更好地理解"左上角""中间偏右"等空间描述。这对空间推理能力的提升起到了关键作用。
Transformer 块结构
每个 DiT Transformer 块包含四个核心组件:
自注意力层(Self-Attention): patch token 之间的全局交互,每个 patch 都能与整张图像的所有其他 patch 建立关联。这消除了 U-Net 中感受野受限的问题。
交叉注意力层(Cross-Attention): 将文本条件注入图像特征,实现语义对齐。GPT-Image-2 将语言模型的中间层特征(而非仅最终 embedding)作为条件信号,通过多层注入获取从低级语法到高级语义的多层次信息。
前馈网络(FFN): GELU 激活的两层 MLP,负责特征变换和非线性映射。
自适应层归一化(AdaLN): 根据扩散过程的时间步和条件信号动态调整归一化参数。这是 DiT 区别于标准 Transformer 的关键设计,使模型能根据当前去噪阶段动态调整行为。
四、U-Net 与 DiT 的技术对比
| 对比维度 | U-Net | DiT |
|---|---|---|
| 核心架构 | CNN 卷积 | Transformer Self-Attention |
| 感受野 | 受限于网络深度 | 全局(每个 patch 可见全图) |
| 扩展性 | 有限,边际收益递减 | 强,符合 Scaling Law |
| 位置编码 | 无显式位置编码 | 2D RoPE,保留空间结构 |
| 多模态融合 | 交叉注意力外挂式注入 | 原生集成,多层特征注入 |
| 文本渲染 | 约 70% 准确率 | 约 92% 准确率 |
| 空间推理 | 约 55% 准确率 | 约 85% 准确率 |
| 视频生成 | 困难 | 天然适配(Sora 基于 DiT) |
| 典型采样步数 | 30-50 步 | 25-30 步 |
从数据可以看出,DiT 在文本渲染、空间推理、采样效率三个维度均优于 U-Net。其核心优势来自全局注意力机制------在每一步去噪过程中,每个 patch token 都能与整张图像的所有其他 patch 进行交互,不存在 U-Net 中的感受野限制。
五、噪声调度与采样策略
余弦噪声调度
GPT-Image-2 使用改进的余弦噪声调度方案(Cosine Schedule)。与线性调度相比,余弦调度在高频细节区域(低噪声区间)采用更精细的噪声衰减曲线,使模型在少步数采样时也能保留丰富的纹理信息。
混合阶数采样器
模型内部使用了类 DPM-Solver++ 的快速采样算法,并针对 DiT 架构做了专项适配。关键改进包括:基于 Transformer 特征的自适应步长调整,以及在高噪声阶段使用一阶求解器、低噪声阶段切换为二阶求解器的混合策略。
实测中,生成一张 1024×1024 的图像需要 25-30 步采样,耗时约 1.5-2.5 秒。相比之下,Stable Diffusion 通常需要 30-50 步,耗时 2-4 秒(本地部署)。
六、条件注入机制的技术细节
多层特征注入
传统扩散模型仅将文本编码器的最终输出(一个全局 embedding 向量)作为条件信号,信息压缩损失较大。GPT-Image-2 将语言模型的中间层特征作为条件信号,从 GPT-4o 的多个 Transformer 层中提取文本表示,通过交叉注意力注入 DiT 的不同深度层。
这种设计使模型能获取从低级语法到高级语义的多层次信息。在复杂场景(如包含 10 个以上元素的插画、带有精确文字的海报)中,优势尤为明显。
时间步条件
扩散过程的时间步信息通过 AdaLN 注入。时间步首先通过正弦位置编码转换为高维向量,然后通过小型 MLP 生成 AdaLN 的缩放和偏移参数。这使模型在高噪声阶段关注全局结构,在低噪声阶段聚焦细节纹理。
七、DiT 架构带来的能力提升
文本渲染:约 92% 准确率
模型采用字形感知的 token 化方案,将文字渲染分解为语义理解阶段(理解内容、字体、大小、位置)和像素绘制阶段(根据字形信息生成精确像素)。在中英文混排的复杂场景测试中,GPT-Image-2 文字正确率约 92%,DALL·E 3 约 70%,Midjourney v6 约 75%。
空间推理:约 85% 准确率
2D RoPE 保留了空间结构信息,全局注意力机制使模型能同时处理所有空间约束。在标准空间推理测试(如"左侧 A,右侧 B,B 上方 C")中,指令执行准确率约 85%。
多轮编辑:原生支持
基于"图像-文本对齐"的精细化训练,模型学习了将语言描述精确映射到图像区域的能力。用户可通过对话方式指定修改区域和内容,模型在保持原图一致性的前提下完成局部更新。
八、常见问题(FAQ)
Q1:GPT-Image-2 和 DALL·E 3 是什么关系?
两者是迭代关系。DALL·E 3 基于改进的 U-Net 架构,是独立的图像生成管线;GPT-Image-2 基于 DiT 架构,与 GPT-4o 深度集成。GPT-Image-2 在文本渲染、空间推理、多轮编辑等维度均有显著提升,可视为 DALL·E 3 的技术继任者。
Q2:DiT 和 U-Net 的核心区别是什么?
U-Net 通过编码器-解码器和跳跃连接处理多尺度特征,感受野受限于网络深度。DiT 将图像切分为 patch,通过 Transformer 的全局自注意力机制实现全图信息交互。DiT 在长距离依赖建模和构图一致性方面有明显优势。
Q3:GPT-Image-2 的生成速度为什么比 Stable Diffusion 快?
主要原因是采样步数更少。GPT-Image-2 使用优化的 DPM-Solver++ 采样器,25-30 步即可达到高质量输出;Stable Diffusion 通常需要 30-50 步。此外,OpenAI 的推理基础设施针对 DiT 架构做了专项优化。
Q4:DiT 架构是开源的吗?
GPT-Image-2 本身闭源,但 DiT 架构并非 OpenAI 专有。Stable Diffusion 3 和 FLUX 系列同样采用 DiT 架构且开源,开发者可以基于这些项目研究和实践 DiT 的技术细节。
Q5:DiT 架构未来的发展方向是什么?
几个值得关注的方向:视频生成扩展(从单帧到时间序列)、3D 理解与生成(从 2D 到三维空间)、更高效的采样算法(将步数压缩到 10 步以内)、跨语言支持优化(提升中文等非拉丁语系的渲染准确率)。
九、总结与建议
GPT-Image-2 的架构迭代代表了图像生成从"专有管线"向"多模态原生"的技术转型。DiT 骨干网络提供了全局注意力机制,语言模型深度集成实现了语义到像素的直接映射,原生编辑能力则让图像生成从"一次性输出"变为"迭代式协作"。
对于 AI 爱好者和开发者而言,理解 GPT-Image-2 的底层架构有助于在实际应用中更好地发挥模型能力。从提示词编写到场景选择,从能力边界到发展趋势,技术认知的深度直接决定了使用效果的上限。
随着多模态技术的持续演进,图像生成正在从"工具"变成"协作伙伴"。GPT-Image-2 是这条路径上的重要节点,但远非终点。
【本文完】