核心技术篇① | 虚拟人形象生成:扩散模型与ControlNet原理
导语
虚拟人的第一步,是拥有一个可视化的数字形象。在AIGC时代之前,虚拟人形象需要专业的原画师、建模师花费数周甚至数月完成;而如今,借助扩散模型,我们只需要一行提示词,就能在几分钟内生成高质量的2D/3D虚拟人形象,甚至可以精准控制人物的姿态、表情、动作。
本文就带你从0到1搞懂虚拟人形象生成的核心技术,从生成模型的发展脉络,到扩散模型的核心原理,再到Stable Diffusion、ControlNet等工具的实战应用,一文讲透。
1 生成模型的历史脉络
虚拟人形象生成的核心,是AIGC图像生成技术。从2013年至今,图像生成模型经历了多轮技术迭代,最终扩散模型成为了行业的主流方案,核心发展脉络如下:
- 2013-2014年:VAE(变分自编码器),2013年论文发布,2014年正式发表,首次实现了基于神经网络的可控图像生成;
- 2014-2017年:GAN(生成对抗网络)黄金期,2014年提出,后续衍生出DCGAN、Pix2Pix、CycleGAN、StyleGAN等经典模型,成为当时图像生成的绝对主流;
- 2014-2018年:归一化流(Normalizing Flows),2014年出现RealNVP,2018年推出Glow,提供了另一种生成模型的技术思路;
- 2016-2018年:自回归生成模型,2016年出现PixelCNN,2018年GPT模型诞生,为后续的多模态生成奠定了基础;
- 2020年至今:扩散模型爆发期,2020年DDPM论文发布,扩散模型正式诞生;2021年LDM提出,大幅降低计算量;2022年Stable Diffusion、MidJourney发布,扩散模型彻底走向大众,成为图像生成的行业标准。
2 核心生成模型原理解析
2.1 VAE(变分自编码器)

VAE的前身是传统AE(自编码器),传统AE只能实现图像的压缩与重建,无法完成生成任务。而VAE的核心创新,是解决了潜空间的"碎片化"问题,实现了真正的图像生成。

- 核心逻辑:
- 编码器(Encoder)将输入图像压缩到潜空间,输出一个正态分布的均值和方差,而不是一个固定的向量;
- 从这个正态分布中采样,得到潜空间向量z;
- 解码器(Decoder)将向量z重建为图像。
- 核心优化:通过KL散度项,把每个图像的潜空间分布拉回到标准正态分布周围,避免潜空间碎片化,让随机采样的向量也能生成合理的图像。
- 参数控制:
- β=1:标准VAE;
- β>1:更强的KL约束,潜空间更规则,但重建图像更模糊;
- β<1:弱化KL约束,模型更重视重建效果,图像更清晰。
2.2 GAN(生成对抗网络)
GAN的核心是"对抗训练",通过生成器和判别器的博弈,实现高质量图像生成,是2015-2021年图像生成的绝对主流。

-
核心逻辑:
- 生成器(Generator):接收随机噪声,生成"假图像";
- 判别器(Discriminator):接收真实图像和生成的假图像,判断输入是"真"还是"假";
- 对抗训练:生成器不断优化,让生成的图像骗过判别器;判别器不断优化,提升真假识别能力,二者博弈最终让生成器能生成以假乱真的图像。
-
经典衍生模型:
模型 发布时间 核心能力 DCGAN 2015年 用卷积取代全连接,让GAN更适合图像生成任务 Pix2Pix 2016年 条件GAN,实现图像到图像的转换(如素描转照片) CycleGAN 2017年 无需成对数据的图像转换(如马转斑马、夏天转冬天) StyleGAN 2018年 风格化生成,可生成超真实人脸,至今仍是高质量人像生成的经典方案 WGAN-GP 2017年 引入Wasserstein距离,解决GAN训练不稳定、模式崩溃的问题
2.3 扩散模型(Diffusion Models)
扩散模型是当前虚拟人形象生成的绝对主流,Stable Diffusion、MidJourney、DALL-E等主流工具,底层均基于扩散模型。

2.3.1 核心原理
扩散模型的核心逻辑分为两步:前向扩散过程 、反向去噪过程。
- 前向扩散:从原始图像(t=0)开始,逐步向图像中添加高斯噪声,经过1000步后,图像变成完全的高斯噪声(t=999);
- 反向去噪:训练一个神经网络,在每一个时间步t,预测图像中添加的噪声,逐步从完全噪声中还原出原始图像,实现图像生成。
- 核心优势:训练稳定、文本对齐效果好、可控性极强(支持ControlNet、LoRA等扩展方案);
- 核心短板:原生采样速度慢,需要通过采样器优化实现加速。
2.3.2 扩散模型的技术演进路线
扩散模型从2020年诞生至今,核心演进方向是提升生成速度、优化生成质量、增强可控性,关键里程碑如下:
| 年限 | 核心方法论 | 代表模型/方案 | 核心突破 |
|---|---|---|---|
| 2020年 | DDPM开山之作 | DDPM | 奠定扩散模型基础,训练稳定,但需要上千步采样,速度极慢 |
| 2021年 | 确定性轨迹加速+潜空间扩散 | DDIM、LDM | DDIM将采样步数从上千步压缩到几十步;LDM在潜空间完成扩散,大幅降低计算量,是Stable Diffusion的原型 |
| 2022年 | ODE数值解法扩展 | Euler、Heun、LMS采样器 | 进一步优化采样速度,Stable Diffusion正式发布,扩散模型走向大众 |
| 2023年 | 高阶ODE解法 | DPM-Solver / DPM++ | 工业界首选采样器,在减少步数的同时保持画质,是Euler方案的升级版 |
| 2024年 | 一致性模型 | LCM / CM | 无需数值积分,训练模型直接学会跳步,1-4步即可出图,实现极速生成 |
2.3.3 Stable Diffusion核心架构
Stable Diffusion是目前最主流的开源扩散模型,也是生成虚拟人形象的首选工具,核心架构由三部分组成:
- CLIP文本编码器:将用户输入的提示词(Prompt)转换为文本特征向量,实现文本对图像生成的控制;
- LDM潜空间扩散架构:核心生成模块,在潜空间完成扩散与去噪过程,大幅降低计算量;
- DDIM采样器:负责加速采样过程,实现快速出图。
3 虚拟人形象生成的核心可控方案
扩散模型解决了"生成高质量人像"的问题,而以下方案则解决了"精准控制虚拟人形象"的核心需求,是虚拟人形象生成的必备工具。
3.1 固定目标生成:让模型记住特定的虚拟人形象

如果需要生成固定形象的虚拟人,保证不同生成图中的人物外貌一致,就需要用到以下方案,从轻量到重量级排序如下:
- 轻量级方案:Textual Inversion、LoRA(低秩适配),训练成本低,适合个人创作者使用,其中LoRA是目前最主流的方案;
- 中量级方案:Custom Diffusion,效果与训练成本均衡;
- 重量级方案:DreamBooth,能更牢固地绑定特定人物/物体,生成一致性远优于Textual Inversion,适合需要高精度固定形象的虚拟人生成。
3.2 结构约束:ControlNet精准控制虚拟人姿态

在线体验地址ControlNet是虚拟人形象生成的里程碑式工具,它解决了扩散模型"姿态、结构不可控"的痛点,能精准控制虚拟人的人体姿态、面部表情、手部动作、场景构图等。
- 核心逻辑:通过额外的控制条件(如人体骨骼关键点、线稿、深度图等),引导扩散模型的生成过程,在保留提示词生成效果的同时,严格遵循控制条件的结构约束;
- 核心应用:生成固定姿态、固定动作的虚拟人形象,比如虚拟主播的口播姿势、虚拟讲师的讲解动作,是虚拟人形象生成的必备工具。
3.3 主流工具对比:Diffusers vs ComfyUI

针对不同的使用人群,有两款主流的扩散模型工具,核心差异如下:
| 对比项 | Diffusers | ComfyUI |
|---|---|---|
| 开发者 | Hugging Face | ComfyOrg社区 |
| 适合人群 | 开发者、研究者 | 设计师、内容创作者、讲师 |
| 核心场景 | 模型训练、推理、微调、部署 | 创意生成、参数调节、生成管线编排 |
| 核心功能 | 提供Stable Diffusion、DreamBooth、LoRA、ControlNet等全系列模型的编程接口 | 用图形化节点控制扩散模型底层逻辑,可视化编排生成流程 |
| 操作方式 | 代码式操作,通过Python代码调用 | 可视化界面操作,拖拽节点完成管线搭建 |
| 优缺点 | 灵活度高、可编程性强;需要代码基础 | 直观、上手快、无需代码;不适合大规模训练与部署 |
4 扩散模型的领域应用边界
扩散模型不仅能实现虚拟人2D形象生成,还能拓展到更多虚拟人相关的生成任务,核心应用边界如下:
- 扩散模型核心擅长:Text-to-Image(文生图,虚拟人形象生成)、Text-to-Video(文生视频,虚拟人动态视频生成)、Text-to-3D(文生3D,虚拟人3D模型生成)、Text-to-Music(文生音乐,虚拟人背景音乐生成);
- 自回归模型核心擅长:Text-to-Speech(文生语音,虚拟人语音合成)、Text-to-Code(文生代码,虚拟人交互系统开发);
- 二者结合:是当前虚拟人全链路生成的主流方案,实现从形象、语音、视频到交互系统的全流程AI生成。
核心总结
虚拟人形象生成的核心,是扩散模型为代表的AIGC图像生成技术。从VAE、GAN到扩散模型,技术迭代的核心方向,始终是更低的生成门槛、更高的生成质量、更强的可控性 。
对于虚拟人创作来说,Stable Diffusion是基础工具,LoRA/DreamBooth能帮你固定虚拟人的专属形象,ControlNet能帮你精准控制虚拟人的姿态和动作,三者结合,就能完成高质量虚拟人形象的全流程生成。
拓展指引
下一篇:《核心技术篇② | 虚拟人的大脑:国内头部大语言模型全解析》,我们会深入拆解虚拟人的"AI大脑"------大语言模型,看看国内头部LLM的技术特点,以及如何为虚拟人打造自主思考、实时交互的能力。