在上篇文章里,我们主要介绍了AI绘画工具平台的发展历史,但我们学习AIGC最关键的其实是各种AI绘画模型,工具只是方便我们的操作使用,真正能决定图画质量的还是最各种基础的AI绘画技术。这篇文章我们将着重介绍一下AI绘画技术的发展历程。
最原始的AI绘画技术其实可以追溯到1971年,不过我不打算从1971年说起。这些远古的绘画技术和我们现在的技术其实差距很大,更多的是一种早期技术探索,感兴趣的朋友可以自行去网上搜索。
请大家先记住一个词"VAE ",这个词和上篇文章中的"Clip、Lora",在以后ComfUI的学习使用过程中将会日常伴随着我们。
2013年Variational Autoencoder(VAE) 概念正式提出。
翻译过来就是"变分自编码器"是一种人工神经网络结构,用于机器学习中的概率图模式和变分贝叶斯方法。
VAE的核心就两个:
一是编码器(Encoder):将输入图像映射到潜在空间。
二是解码器(Decoder):从潜在空间重构出图像。
通俗点我们可以这样理解,给电脑一张图片,电脑自己是不认识图片的,而且图片这种东西信息量比较大,电脑的脑容量也不好存储。
这个时候VAE的编码器就先把图像压缩(可以理解成缩略图),再把图像转换为电脑认识的类似二进制0和1的东西。
理解了编码器,那VAE的解码器就很好理解了,就是把电脑自己生成的一串图像代码,再反过来转换为我们人可以看懂的图像再传输出来。
这个时候的VAE自己就是一个图像生成模型,虽然训练的稳定性还可以,但生成的图片质量那就一言难尽了。
2014年提出了提出了生成对抗网络(Generative Adversarial Networks, GAN)。
这个GAN的核心也是两个组件:
一个是生成器(Generator):负责生成假图像。
一个是判别器(Discriminator):负责区分真实图像和生成的假图像。
他们两个的训练过程就像一场"猫鼠游戏":生成器努力生成越来越逼真的图像来欺骗判别器,判别器努力提高自己的判断能力,准确识别真假图像。两者在对抗中共同进步,最终生成器能够生成以假乱真的图像。
这个GAN模型呢,相比VAE的出图质量就提高了很多,不过他有个缺点就是不稳定。
2015年的时候就有大聪明,把VAE和GAN结合起来搞了个VAE-GAN,既保持了VAE的训练稳定性,又提高了生成图像的质量,兼具两种模型的优点。
GAN的提出大大的推进了AI生图技术的发展:
2016 DCGAN:加入卷积,GAN 第一次能生成规整人像,奠定 GAN 通用结构。
2017 CycleGAN :无需配对图片,一键照片变油画、马变斑马,风格迁移鼻祖。
2018--2019 StyleGAN1/2:人脸生成天花板,五官、发型、肤色可单独调控,人脸肉眼难辨真假;
但是GAN呢有个天生短板:没法用文字控制画图,不能文生图、复杂场景容易崩坏。
在GAN发展的同期呢,还有一个技术一直在猥琐的发育,那就是2015年借鉴热力学分子扩散,提出的非平衡热力学扩散生成模型Diffusion(扩散模型)。
它的核心原理就是,先给一张图慢慢加噪声变成纯白噪声(正向扩散)。再逐步把噪变去掉返回原图(反向扩散,AI 生成原理)。
小朋友玩的刮刮卡,就可以非常形象的比喻这个过程!挂掉卡片上的图层,最终展示出整个图像的过程其实就和AI生图的原理类似。
虽然这个东喜2015年就提出了,但由于动辄1000步往上的采样次数,巨吃显存,根本就没法民用。所以再2020年之前一直被GAN压着打。
这里又出现了一个新词"采样 "大家先记一下,和"VAE、Clip、Lora"一样,在以后的ComfyUI的学习使用过程中将会一直陪伴在我们左右。
为了引入VAE这个概念,这篇文章还是扯得有点远了,下一章我们开始介绍**Diffusion(扩散模型),**争取在下一章把ComfyUI&AIGC基础概念及发展历程这一段结束掉,早日开启AIGC的正式学习阶段。