扩散模型与可控生成:从AI涂鸦到精准作画的技术革命
你是否惊叹于Midjourney能根据一句文字生成堪比大师的画作?是否好奇Stable Diffusion如何将你的线稿瞬间变成高清插画?是否见过ControlNet精准控制人物姿态和建筑结构的神奇效果?这些现象级应用的背后,都离不开扩散模型(Diffusion Models) 这一AI生成技术的核心引擎。
如果说生成模型是AI的"画笔",那么扩散模型就是目前最锋利的那一支。而ControlNet、LoRA等条件控制技术,则让这支画笔从"随机涂鸦"进化为"精准作画",真正实现了"所想即所得"。本文将带你从零开始,系统了解生成模型的发展历程、扩散模型的核心原理,以及可控生成的关键技术,揭开AI画图背后的技术奥秘。
1 生成模型全景:五大流派的百年竞逐
生成模型的目标是让计算机学习数据的分布,从而生成与真实数据相似的新样本。简单来说,就是让AI学会"创造"------创造图像、视频、音频、文本等各种形式的内容。
1.1 生成模型的五大流派与历史脉络
自深度学习兴起以来,生成模型领域涌现出了五大主流技术流派,它们在不同时期各领风骚,共同推动了AI生成技术的进步:
| 技术流派 | 提出时间 | 代表模型 | 核心思想 | 优势 | 局限性 |
|---|---|---|---|---|---|
| 变分自编码器(VAE) | 2013年 | VAE、β-VAE | 基于概率建模,将数据编码到潜空间再解码生成 | 训练稳定,潜空间连续可解释 | 生成图像模糊,细节不足 |
| 生成对抗网络(GAN) | 2014年 | DCGAN、StyleGAN、CycleGAN | 生成器与判别器对抗训练,互相博弈提升 | 生成图像清晰度高,细节丰富 | 训练不稳定,容易模式崩溃 |
| 归一化流(Normalizing Flows) | 2014年 | RealNVP、Glow | 通过可逆变换将数据映射到简单分布 | 精确的对数似然,生成过程可逆 | 计算成本高,模型复杂度大 |
| 自回归模型 | 2016年 | PixelCNN、GPT | 逐像素/逐token生成,建模序列依赖 | 生成质量高,序列建模能力强 | 生成速度慢,并行性差 |
| 扩散模型 | 2020年 | DDPM、Stable Diffusion、Sora | 逐步加噪再逐步去噪,基于概率扩散 | 训练稳定,文本对齐好,可控性强 | 原始采样速度慢,需加速优化 |
1.2 为什么扩散模型最终胜出?
在2021年之前,GAN一直是图像生成领域的绝对王者,尤其是StyleGAN生成的人脸几乎达到了以假乱真的程度。但为什么最终是扩散模型后来居上,成为了AI生成技术的主流?
核心原因在于扩散模型解决了GAN的两大致命缺陷:
- 训练稳定性:GAN的训练是一个"零和博弈",生成器和判别器需要达到微妙的平衡,稍有不慎就会出现模式崩溃(生成的样本千篇一律)或梯度消失。而扩散模型的训练是一个简单的回归任务,目标是预测噪声,训练过程非常稳定。
- 可控性与多样性:GAN很难在生成质量和多样性之间取得平衡,而且难以精确控制生成内容的结构和细节。扩散模型天然支持多种条件控制(文本、图像、姿态等),并且可以通过调整采样步数和参数,在质量和多样性之间灵活切换。
此外,扩散模型还具有文本对齐更好 、易于扩展到视频和3D等优势,这使得它成为了目前最适合通用生成任务的技术框架。
2 基础生成模型:VAE与GAN的奠基之路
虽然扩散模型已经成为主流,但VAE和GAN作为生成模型的两大基石,它们的思想和技术仍然被广泛应用于现代扩散模型中。例如,Stable Diffusion的核心架构就使用了VAE来压缩图像,而GAN的对抗训练思想也被用于提升扩散模型的生成质量。
2.1 VAE:变分自编码器的数学魔法
2.1.1 传统自编码器(AE)的局限
传统自编码器由编码器(Encoder)和解码器(Decoder)两部分组成:
- 编码器将输入图像压缩成一个低维的潜向量(z)
- 解码器将潜向量还原成原始图像
它的目标是最小化重建误差,让输出图像尽可能接近输入图像。但传统AE有一个致命的问题:潜空间是碎片化的。
每张图像都会占据潜空间中的一小块区域,区域之间没有任何联系。当我们随机采样一个潜向量时,很可能会落到"无主之地",解码出来的结果会是毫无意义的噪声。

2.1.2 VAE的核心思想:概率化潜空间
VAE(变分自编码器)的创新之处在于,它将潜空间从"确定性的点"变成了"概率分布"。
对于每张输入图像x,编码器不再输出一个固定的潜向量z,而是输出一个高斯分布的均值(μ)和方差(σ²)。然后我们从这个分布中采样一个潜向量z,再送入解码器生成图像。
为了解决潜空间碎片化的问题,VAE引入了KL散度约束 ,强制让所有的分布都尽可能接近标准正态分布N(0, I)。这样,整个潜空间就变成了一个连续、规则的空间,任意采样一个点都能解码出有意义的图像。

2.1.3 VAE的损失函数详解
VAE的损失函数由两部分组成:
L=Eq(z∣x)\[−logp(x∣z)\]⏟重建损失+β⋅DKL(q(z∣x)∥p(z))⏟KL散度损失\]\[ L = \\underbrace{E_{q(z\|x)}\[-log p(x\|z)\]}_{\\text{重建损失}} + \\beta \\cdot \\underbrace{D_{KL}(q(z\|x) \\parallel p(z))}_{\\text{KL散度损失}} \]\[L=重建损失 Eq(z∣x)\[−logp(x∣z)\]+β⋅KL散度损失 DKL(q(z∣x)∥p(z))
- 重建损失:衡量生成图像与原始图像的相似度,目标是让重建效果尽可能好
- KL散度损失:衡量编码器输出的分布与标准正态分布的差异,目标是让潜空间更规则
- β参数 :用于平衡两部分损失的权重
- β=1:标准VAE
- β>1:更强的KL约束,潜空间更规则,但重建会更模糊
- β<1:弱化KL约束,模型更重视重建,生成图像更清晰
2.2 GAN:生成对抗网络的"猫鼠游戏"
GAN(生成对抗网络)的核心思想是"对抗训练",它由两个神经网络组成:生成器(Generator) 和判别器(Discriminator) 。

- 生成器:接收随机噪声作为输入,生成假样本,目标是"骗过"判别器
- 判别器:接收真实样本和生成器生成的假样本,目标是准确区分真假
这就像一场猫鼠游戏:生成器努力让自己生成的样本越来越像真的,判别器努力提高自己的鉴别能力。在不断的对抗训练中,两者的能力都会越来越强,最终生成器生成的样本几乎可以以假乱真。
2.2.1 GAN家族的经典成员
GAN自提出以来,衍生出了众多变种,其中最具影响力的有:
| 模型 | 提出时间 | 核心创新 | 典型应用 |
|---|---|---|---|
| DCGAN | 2015年 | 用卷积层取代全连接层,让GAN更适合图像生成 | 基础图像生成 |
| Pix2Pix | 2016年 | 条件GAN,实现图像到图像的转换 | 素描转照片、黑白转彩色 |
| CycleGAN | 2017年 | 不需要成对数据的图像转换 | 马转斑马、夏天转冬天、照片转莫奈风格 |
| WGAN-GP | 2017年 | 引入Wasserstein距离和梯度惩罚,解决训练不稳定问题 | 通用GAN训练 |
| StyleGAN | 2018年 | 风格化生成,通过控制不同层级的特征来控制图像风格 | 超真实人脸生成 |
2.2.2 StyleGAN:GAN时代的巅峰之作
StyleGAN是NVIDIA在2018年推出的人脸生成模型,它生成的人脸质量之高,至今仍令人惊叹。StyleGAN的核心创新是风格解耦:
- 将图像生成过程分解为不同的层级,低层级控制整体结构(脸型、发型),高层级控制细节(眼睛、嘴巴、皮肤纹理)
- 通过调整不同层级的风格向量,可以精确控制生成人脸的各种特征
后续的StyleGAN2解决了"水波纹伪影"问题,StyleGAN3则解决了"混叠"问题,进一步提升了生成质量和一致性。

3 扩散模型:AI画图的核心引擎
2020年,DDPM(Denoising Diffusion Probabilistic Model)的发表标志着扩散模型时代的到来。虽然最初的DDPM生成速度极慢(需要上千步才能出一张图),但它展现出的训练稳定性和生成质量,让研究者们看到了巨大的潜力。
3.1 扩散模型的基本原理:"逐步去污"的智慧
扩散模型的灵感来源于物理学中的扩散现象:一滴墨水滴入水中,会逐渐扩散均匀,最终变成一杯浑浊的水。这个过程是不可逆的,但我们可以训练一个模型来模拟它的逆过程------从浑浊的水中还原出原来的墨水。
3.1.1 前向扩散过程:逐步加噪
前向扩散过程是一个确定性的过程 :我们从一张干净的图像x₀开始,逐步向其中添加高斯噪声,经过T步(通常T=1000)后,图像会变成完全的高斯噪声xTx_TxT。

xt=αtxt−1+1−αtϵt\]\[ x_t = \\sqrt{\\alpha_t}x_{t-1} + \\sqrt{1-\\alpha_t}\\epsilon_t \]\[xt=αt xt−1+1−αt ϵt
其中,αtα_tαt是一个预先设定的常数,随着t的增大而逐渐减小;εtε_tεt是服从标准正态分布的噪声。
这个过程的关键在于,我们可以直接计算出任意时刻t的带噪图像xtx_txt,而不需要一步步迭代:
xt=αˉtx0+1−αˉtϵ\]\[ x_t = \\sqrt{\\bar{\\alpha}_t}x_0 + \\sqrt{1-\\bar{\\alpha}_t}\\epsilon \]\[xt=αˉt x0+1−αˉt ϵ
其中,(αˉt=∏i=1tαi)(\bar{\alpha}t = \prod{i=1}^t \alpha_i)(αˉt=∏i=1tαi)。
3.1.2 反向扩散过程:逐步去噪
反向扩散过程是我们需要训练模型来学习的过程:从完全的高斯噪声xTx_TxT开始,逐步预测并去除每一步的噪声,最终还原出干净的图像x₀。
扩散模型的核心训练目标 非常简单:给定带噪图像xtx_txt和时间步t,预测添加到图像上的噪声ε。
训练完成后,我们就可以通过以下迭代公式来生成图像:
xt−1=1αt(xt−1−αt1−αˉtϵθ(xt,t))+σtz\]\[ x_{t-1} = \\frac{1}{\\sqrt{\\alpha_t}}(x_t - \\frac{1-\\alpha_t}{\\sqrt{1-\\bar{\\alpha}_t}}\\epsilon_\\theta(x_t, t)) + \\sigma_t z \]\[xt−1=αt 1(xt−1−αˉt 1−αtϵθ(xt,t))+σtz
其中,εθ(xt,t)ε_θ(x_t, t)εθ(xt,t)是模型预测的噪声,σtzσ_t zσtz是一个小的随机噪声项,用于增加生成结果的多样性。
3.2 扩散模型的技术演进路线
从2020年DDPM诞生到今天,扩散模型的技术演进主要围绕**"效率"和"控制"**两大主题展开,形成了两条清晰的技术路线:
| 年份 | 方法论 | 代表模型 | 核心突破 |
|---|---|---|---|
| 2020年 | DDPM诞生 | DDPM | 奠定扩散模型的基础理论框架 |
| 2021年 | 潜空间扩散(LDM) | LDM | 将扩散过程从像素空间转移到潜空间,计算量降低10-100倍 |
| 2021年 | 确定性采样 | DDIM | 将随机扩散转为确定性轨迹,采样步数从1000步减少到50步 |
| 2022年 | 高阶ODE解法 | Euler、Heun、LMS | 进一步减少采样步数,提升生成质量 |
| 2023年 | 更高效的ODE解法 | DPM-Solver、DPM++ | 工业界首选,20-30步即可生成高质量图像 |
| 2024年 | 一致性模型 | LCM、CM | 无需数值积分,1-4步即可出图,实现实时生成 |

3.2.1 A路线:从DDPM到Stable Diffusion
这条路线的核心是降低计算成本,让扩散模型能够在消费级显卡上运行。
2021年提出的LDM(Latent Diffusion Model) 是一个里程碑式的突破。它的核心思想是:
- 先用一个预训练的VAE将高分辨率的图像压缩到低维的潜空间
- 在潜空间中进行扩散和去噪过程
- 最后用VAE的解码器将潜空间特征还原成高分辨率图像
这样做的好处是,潜空间的维度比像素空间小得多(例如,512x512的RGB图像压缩后变成64x64的特征图),计算量可以降低两个数量级,而生成质量几乎没有损失。
Stable Diffusion 就是基于LDM架构开发的,它于2022年开源,彻底引爆了AI生成技术的革命。Stable Diffusion的核心架构是:
CLIP文本编码器 + LDM扩散模型 + VAE编解码器 + DDIM采样器
目前Stable Diffusion已经发展到了3.5版本,主流版本的显存要求如下:
- SD 1.5:4GB显存即可运行
- SDXL 1.0:8GB显存
- SD 3.5 Medium:10GB显存
- SD 3.5 Large:32GB显存
3.2.2 B路线:从DDIM到LCM的加速革命
这条路线的核心是提升采样速度,让扩散模型能够实现实时生成。
- DDIM:2021年提出,将扩散过程从随机的SDE(随机微分方程)转为确定性的ODE(常微分方程),采样步数从1000步减少到50步
- DPM-Solver:2023年提出,是一种高阶的ODE数值解法,20步即可生成与DDIM 50步相当的质量,成为目前工业界的首选采样器
- LCM(Latent Consistency Model):2024年提出,彻底抛弃了数值积分的思路,训练模型直接学会"跳步"生成,1-4步即可出图,实现了实时生成
LCM的出现让AI画图从"分钟级"进入了"秒级",为实时交互应用(如AI绘画软件、虚拟人直播)奠定了基础。
4 可控生成:让AI听懂你的指令
早期的扩散模型虽然生成质量很高,但可控性很差。你输入"一只猫",它可能生成各种姿势、各种品种的猫,但很难精确控制猫的姿态、位置和背景。为了解决这个问题,研究者们开发了一系列条件控制技术,让AI能够真正听懂你的指令。
4.1 固定目标生成:让模型记住"特定事物"
固定目标生成的目标是让模型学会生成一个特定的物体、人物或风格,例如"我的狗"、"梵高的风格"、"某个特定的logo"。
目前主流的固定目标生成方法有三种,它们在训练成本、效果和灵活性上各有优劣:
| 方法 | 训练数据量 | 训练时间 | 模型大小 | 效果 | 灵活性 |
|---|---|---|---|---|---|
| Textual Inversion | 3-5张 | 几分钟 | ~100KB | 一般 | 只能控制风格/物体,不能控制结构 |
| LoRA | 5-10张 | 十几分钟 | ~10-100MB | 好 | 灵活,可组合多个LoRA |
| DreamBooth | 10-20张 | 几小时 | 完整模型 | 最好 | 生成最稳定,绑定最牢固 |
4.1.1 LoRA:轻量级微调的王者
LoRA(Low-Rank Adaptation,低秩适配)是目前最流行的轻量级微调方法。它的核心思想是:
- 冻结预训练扩散模型的所有权重
- 在Transformer的注意力层中插入两个小的低秩矩阵
- 训练时只更新这两个低秩矩阵的参数
这样做的好处是:
- 训练成本极低:只需要训练很少的参数,在消费级显卡上即可完成
- 模型体积小:训练好的LoRA权重只有几十MB,方便分享和传播
- 可组合性强:可以同时加载多个LoRA,组合不同的风格和特征
4.1.2 DreamBooth:个性化生成的利器
DreamBooth是一种更强大的个性化生成方法,它可以让模型"记住"一个特定的主体。
DreamBooth的训练流程是:
- 准备3-5张同一主体的不同角度的照片
- 给这个主体分配一个唯一的稀有标识符,例如"[V]"
- 用这些照片和包含"a [V] dog"等格式的文本对模型进行微调
训练完成后,你就可以用"a [V] dog in the beach"、"a [V] dog wearing sunglasses"等提示词,生成这个特定主体在各种场景下的照片。
4.2 结构约束生成:ControlNet的革命
如果说LoRA和DreamBooth解决了"生成什么"的问题,那么ControlNet 就解决了"怎么生成"的问题------它可以精确控制生成图像的结构、姿态、布局和几何形状。
4.2.1 ControlNet解决的痛点
在ControlNet出现之前,扩散模型生成的图像结构经常失控:人物姿势怪异、建筑比例失调、手部畸形等问题非常普遍。这是因为文本提示词很难精确描述复杂的空间结构和几何关系。
ControlNet的出现彻底改变了这一局面。它允许你输入额外的结构信息(如线稿、深度图、人体姿态图、边缘图等),让扩散模型严格按照这个结构来生成图像。
4.2.2 ControlNet的核心原理
ControlNet的核心思想是**"冻结预训练模型+可训练控制分支"**:
- 冻结预训练的Stable Diffusion模型的所有权重,保留它已经学到的丰富的生成知识
- 添加一个可训练的控制分支,这个分支与预训练模型的结构完全相同
- 控制分支接收条件输入(如姿态图),提取结构特征,并将这些特征注入到预训练模型的每一层
- 训练时只更新控制分支的参数,预训练模型的参数保持不变
这样做的好处是:
- 不会破坏预训练模型的生成能力
- 训练成本低,只需要训练控制分支
- 可以为不同的控制条件训练不同的ControlNet模型,按需加载
4.2.3 常见的ControlNet控制条件
目前已经有很多成熟的ControlNet模型,支持各种不同的控制条件:
- Canny边缘检测:输入线稿,生成对应结构的彩色图像
- 人体姿态(OpenPose):输入人体骨骼图,生成对应姿态的人物
- 深度图(Depth):输入深度图,生成对应空间结构的场景
- 法线图(Normal):输入法线图,控制物体的表面朝向和光照
- 语义分割图(Segmentation):输入语义分割图,控制不同区域的内容
5 工具生态与领域应用
随着扩散模型技术的成熟,一个庞大的工具生态已经形成,让普通用户也能轻松使用AI生成技术。同时,扩散模型也正在从图像生成向视频、3D、音频等多个领域扩展。
5.1 两大主流工具对比:Diffusers vs ComfyUI
目前最流行的扩散模型工具主要有两个,它们分别面向不同的用户群体:
| 对比项 | Diffusers | ComfyUI |
|---|---|---|
| 开发者 | Hugging Face | ComfyOrg社区 |
| 适合人群 | 开发者、研究者 | 设计师、创作者、普通用户 |
| 核心功能 | 提供Python API,支持各种扩散模型和控制技术 | 可视化节点界面,通过拖拽节点构建生成管线 |
| 操作方式 | 代码式,需要编写Python脚本 | 图形化界面,无需编程 |
| 优势 | 灵活、可编程,适合二次开发和部署 | 直观、上手快,参数调节方便,支持复杂管线 |
| 劣势 | 有编程门槛,不适合创意探索 | 不适合大规模训练和批量部署 |
5.2 扩散模型的跨领域扩展
扩散模型的思想不仅适用于图像生成,还可以扩展到几乎所有的生成任务:
- 文生图:Stable Diffusion、Midjourney、DALL-E 3
- 文生视频:Sora、VEO、Pika
- 文生3D:DreamFusion、Instant3D
- 文生音乐:Stable Audio、Suno
- 语音合成:Fish Speech、ElevenLabs
其中,文生视频是目前最热门的研究方向。2024年OpenAI发布的Sora展示了扩散模型在视频生成领域的巨大潜力,它可以生成长达1分钟、分辨率高达1080p的连贯视频,并且能够准确模拟物理规律和复杂的场景动态。
6 总结与展望
从VAE和GAN的奠基,到扩散模型的爆发,再到ControlNet和LoRA等可控生成技术的成熟,AI生成技术在短短几年内取得了令人瞩目的进步。今天,我们已经可以用AI生成高质量的图像、视频、音频和3D模型,这些技术正在深刻改变设计、影视、游戏、教育等众多行业。
未来,扩散模型技术将继续朝着三个方向发展:
- 更高的效率:随着LCM等加速技术的不断进步,AI生成将从"秒级"进入"实时级",实现真正的交互式生成
- 更强的可控性:更精细的结构控制、更准确的语义对齐、更灵活的风格组合,让AI真正成为人类的创意助手
- 统一的生成模型:将图像、视频、音频、文本等多种模态统一到一个模型中,实现多模态的联合生成和理解
AI生成技术的革命才刚刚开始,它将释放人类无限的创造力,让"所想即所得"成为现实。