第004章：ComfyUI&AIGC基础概念及发展历程(二)

在上篇文章里，我们主要介绍了AI绘画工具平台的发展历史，但我们学习AIGC最关键的其实是各种AI绘画模型，工具只是方便我们的操作使用，真正能决定图画质量的还是最各种基础的AI绘画技术。这篇文章我们将着重介绍一下AI绘画技术的发展历程。

最原始的AI绘画技术其实可以追溯到1971年，不过我不打算从1971年说起。这些远古的绘画技术和我们现在的技术其实差距很大，更多的是一种早期技术探索，感兴趣的朋友可以自行去网上搜索。

请大家先记住一个词"VAE ",这个词和上篇文章中的"Clip、Lora",在以后ComfUI的学习使用过程中将会日常伴随着我们。

2013年Variational Autoencoder(VAE) 概念正式提出。

翻译过来就是"变分自编码器"是一种人工神经网络结构，用于机器学习中的概率图模式和变分贝叶斯方法。

VAE的核心就两个：

一是编码器（Encoder）：将输入图像映射到潜在空间。

二是解码器（Decoder）：从潜在空间重构出图像。

通俗点我们可以这样理解，给电脑一张图片，电脑自己是不认识图片的，而且图片这种东西信息量比较大，电脑的脑容量也不好存储。

这个时候VAE的编码器就先把图像压缩(可以理解成缩略图)，再把图像转换为电脑认识的类似二进制0和1的东西。

理解了编码器，那VAE的解码器就很好理解了，就是把电脑自己生成的一串图像代码，再反过来转换为我们人可以看懂的图像再传输出来。

这个时候的VAE自己就是一个图像生成模型，虽然训练的稳定性还可以，但生成的图片质量那就一言难尽了。

2014年提出了提出了生成对抗网络（Generative Adversarial Networks, GAN）。

这个GAN的核心也是两个组件：

一个是生成器（Generator）：负责生成假图像。

一个是判别器（Discriminator）：负责区分真实图像和生成的假图像。

他们两个的训练过程就像一场"猫鼠游戏"：生成器努力生成越来越逼真的图像来欺骗判别器，判别器努力提高自己的判断能力，准确识别真假图像。两者在对抗中共同进步，最终生成器能够生成以假乱真的图像。

这个GAN模型呢，相比VAE的出图质量就提高了很多，不过他有个缺点就是不稳定。

2015年的时候就有大聪明，把VAE和GAN结合起来搞了个VAE-GAN，既保持了VAE的训练稳定性，又提高了生成图像的质量，兼具两种模型的优点。

GAN的提出大大的推进了AI生图技术的发展：

2016 DCGAN：加入卷积，GAN 第一次能生成规整人像，奠定 GAN 通用结构。

2017 CycleGAN ：无需配对图片，一键照片变油画、马变斑马，风格迁移鼻祖。

2018--2019 StyleGAN1/2：人脸生成天花板，五官、发型、肤色可单独调控，人脸肉眼难辨真假；

但是GAN呢有个天生短板：没法用文字控制画图，不能文生图、复杂场景容易崩坏。

在GAN发展的同期呢，还有一个技术一直在猥琐的发育，那就是2015年借鉴热力学分子扩散，提出的非平衡热力学扩散生成模型Diffusion（扩散模型）。

它的核心原理就是，先给一张图慢慢加噪声变成纯白噪声（正向扩散）。再逐步把噪变去掉返回原图（反向扩散，AI 生成原理）。

小朋友玩的刮刮卡，就可以非常形象的比喻这个过程！挂掉卡片上的图层，最终展示出整个图像的过程其实就和AI生图的原理类似。

虽然这个东喜2015年就提出了，但由于动辄1000步往上的采样次数，巨吃显存，根本就没法民用。所以再2020年之前一直被GAN压着打。

这里又出现了一个新词"采样 "大家先记一下，和"VAE、Clip、Lora"一样，在以后的ComfyUI的学习使用过程中将会一直陪伴在我们左右。

为了引入VAE这个概念，这篇文章还是扯得有点远了，下一章我们开始介绍**Diffusion（扩散模型），**争取在下一章把ComfyUI&AIGC基础概念及发展历程这一段结束掉，早日开启AIGC的正式学习阶段。