一、技术发展脉络
图片生成经历了三代核心架构的演进:
| 时代 | 架构 | 核心思路 | 代表 |
|---|---|---|---|
| 第一代 | VAE | 压缩 → 再解压 | 早期图像生成 |
| 第二代 | GAN | 造假 vs 鉴假的对抗博弈 | StyleGAN、ProGAN |
| 第三代 | 扩散模型 | 逐步去噪,从噪声中"雕刻"出图像 | Stable Diffusion、DALL-E、Midjourney |
| 最新 | DiT / 自回归 | 用 Transformer 统一一切 | Sora、GPT-Image-2、FLUX |
二、三大基础架构原理
VAE(变分自动编码器)
css
原始图片 → [编码器 Encoder] → 潜在向量(压缩表示) → [解码器 Decoder] → 新图片
- 核心:把图片压缩成低维向量,再从向量恢复图片
- 类比:先总结图片的"精华特征",再用精华"还原"一张新图
- 局限:生成图像较模糊,质量有限
GAN(生成对抗网络)
scss
┌──────────────┐ ┌──────────────┐
│ 生成器 G │ 生成图片 │ 判别器 D │ 真假?
│ Generator │────────▶│ Discriminator│
│ (造假大师) │ │ (鉴宝专家) │
└──────────────┘ └──────────────┘
▲ │
│ 反馈:哪里不像? │
└─────────────────────────┘
对抗博弈,循环训练
- 核心:两个网络互相对抗,造假者越来越像真的,鉴宝者越来越会鉴别
- 类比:一个造假画师和一个鉴定专家不断过招,画师最终能以假乱真
- 局限:训练不稳定,容易"模式崩溃"(只会画几种图)
扩散模型(Diffusion Model)------当前主流
这是目前图片生成的绝对主流架构,Stable Diffusion、DALL-E、Midjourney 都基于它。
前向扩散(加噪)
猫的图片 → 轻微加噪 → 加更多噪声 → ... → 纯噪声
x₀ → x₁ → x₂ → ... → xT
清晰 看不出是啥
逐步向图片添加高斯噪声,经过 T 步(如 1000 步)后变成纯随机噪声。这一步有数学公式,可以直接计算任意步的噪声图,无需逐步执行。
逆向去噪(生成)
纯噪声 → 预测并去除噪声 → 更清晰一点 → ... → 完美图片
xT → xT-1 → xT-2 → ... → x₀
训练一个神经网络来预测每一步的噪声是什么,然后把它去除。从纯噪声开始,一步步"雕刻"出清晰的图像。
┌─────────────────────────────────────────────┐
│ 扩散模型核心公式 │
│ │
│ 前向(加噪): xₜ = √(ᾱₜ)·x₀ + √(1-ᾱₜ)·ε │
│ 逆向(去噪): 网络预测噪声 ε,然后反向去除 │
│ │
│ 训练目标: 让网络预测的噪声 ≈ 实际添加的噪声 │
└─────────────────────────────────────────────┘
类比:想象一块大理石(噪声),雕塑家(神经网络)知道里面的猫长什么样,一刀一刀凿掉多余部分(去噪),最终把猫"解放"出来。
三、Stable Diffusion------让扩散模型飞入寻常百姓家
DDPM 的致命问题是太慢了(1000 步在像素空间操作)。Stable Diffusion 的突破在于:
scss
┌──────────────────────────────────────────────────────────┐
│ Stable Diffusion 架构 │
│ │
│ "一只猫坐在窗台上" │
│ │ │
│ ▼ │
│ ┌──────────────┐ │
│ │ Text Encoder │ ← CLIP 文本编码器(理解你的描述) │
│ └──────┬───────┘ │
│ │ 文本嵌入 │
│ ▼ │
│ ┌──────────────────────────────────┐ │
│ │ 潜在空间(Latent Space) │ ← 图像压缩 64 倍 │
│ │ │ │
│ │ 噪声 ──[U-Net 去噪]──▶ 清晰潜在表示 │ │
│ │ ↕ Cross-Attention │ ← 文本引导图像生成 │
│ │ 文本嵌入 ──────────▶ U-Net │ │
│ │ │ │
│ └──────────────┬───────────────────┘ │
│ │ │
│ ▼ │
│ ┌──────────────────────┐ │
│ │ VAE Decoder (解码器) │ ← 压缩的潜在表示 → 真实像素图片 │
│ └──────────┬───────────┘ │
│ ▼ │
│ 🐱 最终图片 │
└──────────────────────────────────────────────────────────┘
三大核心组件:
| 组件 | 作用 | 关键技术 |
|---|---|---|
| Text Encoder | 理解文本描述 | CLIP,把文字变成语义向量 |
| U-Net | 在潜在空间逐步去噪 | Cross-Attention 融合文本和图像信息 |
| VAE Decoder | 把压缩表示还原为像素图 | 把 64×64 潜在图还原为 512×512 像素图 |
关键突破 :不去噪像素(512×512 = 262144 维),而是去噪潜在表示 (64×64 = 4096 维),计算量降低 64² = 4096 倍!消费级 GPU 就能跑。
四、DiT(Diffusion Transformer)------下一代架构
DiT 用 Transformer 替代 U-Net 作为去噪网络:
makefile
传统: 扩散模型 + U-Net(CNN 架构)
↓
DiT: 扩散模型 + Transformer(Attention 架构)
| 对比 | U-Net | DiT |
|---|---|---|
| 核心架构 | CNN 卷积 | Transformer Self-Attention |
| 扩展性 | 有限 | 极强(Scaling Law) |
| 视频生成 | 困难 | 天然适配(Sora 基于 DiT) |
| 代表模型 | Stable Diffusion 1/2/3 | Sora、FLUX、Stable Diffusion 3 |
核心优势:模型越大、数据越多、算力越多,生成质量就越好------像 GPT 一样的 Scaling Law 在图像领域也成立了。
五、GPT-Image-2(2026.4.21)------范式级变革
OpenAI 刚发布的 GPT-Image-2 标志着一个重大转折:
| 维度 | 扩散模型 (DALL-E) | GPT-Image-2 |
|---|---|---|
| 架构 | 扩散模型(逐步去噪) | 自回归模型(单次前向推理) |
| 与 LLM 关系 | 独立分支 | 与 GPT-5 高度整合 |
| 推理 | 两阶段(先验→解码) | 单阶段 |
| 技术栈 | 独立发展 | 复用 LLM 的 RLHF、CoT 等方法 |
这意味着图像生成正在与语言模型技术路径合流------不再需要扩散去噪,而是像 GPT 生成文字一样,用自回归方式逐"块"生成图像。
DALL-E 2/3 将于 2026 年 5 月 12 日关停,OpenAI 主动淘汰扩散模型。
六、一张图总览技术演进
yaml
2014 2017 2020 2022 2024 2026
│ │ │ │ │ │
VAE GAN DDPM Stable Diffusion DiT/Sora GPT-Image-2
│ │ │ │ │ │
压缩→解压 对抗博弈 像素级扩散 潜在空间+CLIP Transformer 自回归
模糊 模式崩溃 太慢了! 消费级GPU可用 Scaling Law 与LLM统一
│ │ │ │ │
└─────────────┴─────────────┴─────────────┘ │
扩散模型时代(3年黄金期) │
│
全部趋同于 Transformer 架构 ◀──────────┘
七、直观类比总结
| 架构 | 一句话类比 |
|---|---|
| VAE | 先给画像"写摘要",再用摘要"画一幅类似的" |
| GAN | 造假画师和鉴宝专家不断过招,画师越画越真 |
| 扩散模型 | 从一块石头(噪声)中,一刀刀凿出隐藏的雕像 |
| DiT | 同样的凿石头,但用的是"全局注意力"的智能凿子 |
| GPT-Image-2 | 不凿石头了,像写文章一样,一个 token 一个 token 地"写"出图片 |
一句话总结 :图片生成大模型经历了 VAE → GAN → 扩散模型 → DiT → 自回归的演进,当前主流是扩散模型(Stable Diffusion、Midjourney),但 2026 年 GPT-Image-2 的出现标志着图像生成正在从"扩散去噪"转向"自回归推理",与 LLM 技术路径全面合流------未来"生成一切"可能只需要一个统一的 Transformer 架构。