多模态大模型学习笔记（二十四）—— 核心技术篇① | 虚拟人形象生成：扩散模型与ControlNet原理

核心技术篇① | 虚拟人形象生成：扩散模型与ControlNet原理

导语

虚拟人的第一步，是拥有一个可视化的数字形象。在AIGC时代之前，虚拟人形象需要专业的原画师、建模师花费数周甚至数月完成；而如今，借助扩散模型，我们只需要一行提示词，就能在几分钟内生成高质量的2D/3D虚拟人形象，甚至可以精准控制人物的姿态、表情、动作。

本文就带你从0到1搞懂虚拟人形象生成的核心技术，从生成模型的发展脉络，到扩散模型的核心原理，再到Stable Diffusion、ControlNet等工具的实战应用，一文讲透。

1 生成模型的历史脉络

虚拟人形象生成的核心，是AIGC图像生成技术。从2013年至今，图像生成模型经历了多轮技术迭代，最终扩散模型成为了行业的主流方案，核心发展脉络如下：

2013-2014年：VAE（变分自编码器），2013年论文发布，2014年正式发表，首次实现了基于神经网络的可控图像生成；
2014-2017年：GAN（生成对抗网络）黄金期，2014年提出，后续衍生出DCGAN、Pix2Pix、CycleGAN、StyleGAN等经典模型，成为当时图像生成的绝对主流；
2014-2018年：归一化流（Normalizing Flows），2014年出现RealNVP，2018年推出Glow，提供了另一种生成模型的技术思路；
2016-2018年：自回归生成模型，2016年出现PixelCNN，2018年GPT模型诞生，为后续的多模态生成奠定了基础；
2020年至今：扩散模型爆发期，2020年DDPM论文发布，扩散模型正式诞生；2021年LDM提出，大幅降低计算量；2022年Stable Diffusion、MidJourney发布，扩散模型彻底走向大众，成为图像生成的行业标准。

2 核心生成模型原理解析

2.1 VAE（变分自编码器）

VAE的前身是传统AE（自编码器），传统AE只能实现图像的压缩与重建，无法完成生成任务。而VAE的核心创新，是解决了潜空间的"碎片化"问题，实现了真正的图像生成。

核心逻辑：
1. 编码器（Encoder）将输入图像压缩到潜空间，输出一个正态分布的均值和方差，而不是一个固定的向量；
2. 从这个正态分布中采样，得到潜空间向量z；
3. 解码器（Decoder）将向量z重建为图像。
核心优化：通过KL散度项，把每个图像的潜空间分布拉回到标准正态分布周围，避免潜空间碎片化，让随机采样的向量也能生成合理的图像。
参数控制：
- β=1：标准VAE；
- β>1：更强的KL约束，潜空间更规则，但重建图像更模糊；
- β<1：弱化KL约束，模型更重视重建效果，图像更清晰。

2.2 GAN（生成对抗网络）

GAN的核心是"对抗训练"，通过生成器和判别器的博弈，实现高质量图像生成，是2015-2021年图像生成的绝对主流。

核心逻辑：
1. 生成器（Generator）：接收随机噪声，生成"假图像"；
2. 判别器（Discriminator）：接收真实图像和生成的假图像，判断输入是"真"还是"假"；
3. 对抗训练：生成器不断优化，让生成的图像骗过判别器；判别器不断优化，提升真假识别能力，二者博弈最终让生成器能生成以假乱真的图像。

经典衍生模型：

模型	发布时间	核心能力
DCGAN	2015年	用卷积取代全连接，让GAN更适合图像生成任务
Pix2Pix	2016年	条件GAN，实现图像到图像的转换（如素描转照片）
CycleGAN	2017年	无需成对数据的图像转换（如马转斑马、夏天转冬天）
StyleGAN	2018年	风格化生成，可生成超真实人脸，至今仍是高质量人像生成的经典方案
WGAN-GP	2017年	引入Wasserstein距离，解决GAN训练不稳定、模式崩溃的问题

2.3 扩散模型（Diffusion Models）

扩散模型是当前虚拟人形象生成的绝对主流，Stable Diffusion、MidJourney、DALL-E等主流工具，底层均基于扩散模型。

2.3.1 核心原理

扩散模型的核心逻辑分为两步：前向扩散过程 、反向去噪过程。

前向扩散：从原始图像（t=0）开始，逐步向图像中添加高斯噪声，经过1000步后，图像变成完全的高斯噪声（t=999）；
反向去噪：训练一个神经网络，在每一个时间步t，预测图像中添加的噪声，逐步从完全噪声中还原出原始图像，实现图像生成。

核心优势：训练稳定、文本对齐效果好、可控性极强（支持ControlNet、LoRA等扩展方案）；
核心短板：原生采样速度慢，需要通过采样器优化实现加速。

2.3.2 扩散模型的技术演进路线

扩散模型从2020年诞生至今，核心演进方向是提升生成速度、优化生成质量、增强可控性，关键里程碑如下：

年限	核心方法论	代表模型/方案	核心突破
2020年	DDPM开山之作	DDPM	奠定扩散模型基础，训练稳定，但需要上千步采样，速度极慢
2021年	确定性轨迹加速+潜空间扩散	DDIM、LDM	DDIM将采样步数从上千步压缩到几十步；LDM在潜空间完成扩散，大幅降低计算量，是Stable Diffusion的原型
2022年	ODE数值解法扩展	Euler、Heun、LMS采样器	进一步优化采样速度，Stable Diffusion正式发布，扩散模型走向大众
2023年	高阶ODE解法	DPM-Solver / DPM++	工业界首选采样器，在减少步数的同时保持画质，是Euler方案的升级版
2024年	一致性模型	LCM / CM	无需数值积分，训练模型直接学会跳步，1-4步即可出图，实现极速生成

2.3.3 Stable Diffusion核心架构

Stable Diffusion是目前最主流的开源扩散模型，也是生成虚拟人形象的首选工具，核心架构由三部分组成：

CLIP文本编码器：将用户输入的提示词（Prompt）转换为文本特征向量，实现文本对图像生成的控制；
LDM潜空间扩散架构：核心生成模块，在潜空间完成扩散与去噪过程，大幅降低计算量；
DDIM采样器：负责加速采样过程，实现快速出图。

3 虚拟人形象生成的核心可控方案

扩散模型解决了"生成高质量人像"的问题，而以下方案则解决了"精准控制虚拟人形象"的核心需求，是虚拟人形象生成的必备工具。

3.1 固定目标生成：让模型记住特定的虚拟人形象

如果需要生成固定形象的虚拟人，保证不同生成图中的人物外貌一致，就需要用到以下方案，从轻量到重量级排序如下：

轻量级方案：Textual Inversion、LoRA（低秩适配），训练成本低，适合个人创作者使用，其中LoRA是目前最主流的方案；
中量级方案：Custom Diffusion，效果与训练成本均衡；
重量级方案：DreamBooth，能更牢固地绑定特定人物/物体，生成一致性远优于Textual Inversion，适合需要高精度固定形象的虚拟人生成。

3.2 结构约束：ControlNet精准控制虚拟人姿态

在线体验地址ControlNet是虚拟人形象生成的里程碑式工具，它解决了扩散模型"姿态、结构不可控"的痛点，能精准控制虚拟人的人体姿态、面部表情、手部动作、场景构图等。

核心逻辑：通过额外的控制条件（如人体骨骼关键点、线稿、深度图等），引导扩散模型的生成过程，在保留提示词生成效果的同时，严格遵循控制条件的结构约束；
核心应用：生成固定姿态、固定动作的虚拟人形象，比如虚拟主播的口播姿势、虚拟讲师的讲解动作，是虚拟人形象生成的必备工具。

3.3 主流工具对比：Diffusers vs ComfyUI

针对不同的使用人群，有两款主流的扩散模型工具，核心差异如下：

对比项	Diffusers	ComfyUI
开发者	Hugging Face	ComfyOrg社区
适合人群	开发者、研究者	设计师、内容创作者、讲师
核心场景	模型训练、推理、微调、部署	创意生成、参数调节、生成管线编排
核心功能	提供Stable Diffusion、DreamBooth、LoRA、ControlNet等全系列模型的编程接口	用图形化节点控制扩散模型底层逻辑，可视化编排生成流程
操作方式	代码式操作，通过Python代码调用	可视化界面操作，拖拽节点完成管线搭建
优缺点	灵活度高、可编程性强；需要代码基础	直观、上手快、无需代码；不适合大规模训练与部署

4 扩散模型的领域应用边界

扩散模型不仅能实现虚拟人2D形象生成，还能拓展到更多虚拟人相关的生成任务，核心应用边界如下：

扩散模型核心擅长：Text-to-Image（文生图，虚拟人形象生成）、Text-to-Video（文生视频，虚拟人动态视频生成）、Text-to-3D（文生3D，虚拟人3D模型生成）、Text-to-Music（文生音乐，虚拟人背景音乐生成）；
自回归模型核心擅长：Text-to-Speech（文生语音，虚拟人语音合成）、Text-to-Code（文生代码，虚拟人交互系统开发）；
二者结合：是当前虚拟人全链路生成的主流方案，实现从形象、语音、视频到交互系统的全流程AI生成。

核心总结

虚拟人形象生成的核心，是扩散模型为代表的AIGC图像生成技术。从VAE、GAN到扩散模型，技术迭代的核心方向，始终是更低的生成门槛、更高的生成质量、更强的可控性 。

对于虚拟人创作来说，Stable Diffusion是基础工具，LoRA/DreamBooth能帮你固定虚拟人的专属形象，ControlNet能帮你精准控制虚拟人的姿态和动作，三者结合，就能完成高质量虚拟人形象的全流程生成。

拓展指引

下一篇：《核心技术篇② | 虚拟人的大脑：国内头部大语言模型全解析》，我们会深入拆解虚拟人的"AI大脑"------大语言模型，看看国内头部LLM的技术特点，以及如何为虚拟人打造自主思考、实时交互的能力。