第004章:ComfyUI&AIGC基础概念及发展历程(二)

在上篇文章里,我们主要介绍了AI绘画工具平台的发展历史,但我们学习AIGC最关键的其实是各种AI绘画模型,工具只是方便我们的操作使用,真正能决定图画质量的还是最各种基础的AI绘画技术。这篇文章我们将着重介绍一下AI绘画技术的发展历程。

最原始的AI绘画技术其实可以追溯到1971年,不过我不打算从1971年说起。这些远古的绘画技术和我们现在的技术其实差距很大,更多的是一种早期技术探索,感兴趣的朋友可以自行去网上搜索。

请大家先记住一个词"VAE ",这个词和上篇文章中的"Clip、Lora",在以后ComfUI的学习使用过程中将会日常伴随着我们。

2013年Variational Autoencoder(VAE) 概念正式提出。

翻译过来就是"变分自编码器"是一种人工神经网络结构,用于机器学习中的概率图模式和变分贝叶斯方法。

VAE的核心就两个:

一是编码器(Encoder):将输入图像映射到潜在空间。

二是解码器(Decoder):从潜在空间重构出图像。

通俗点我们可以这样理解,给电脑一张图片,电脑自己是不认识图片的,而且图片这种东西信息量比较大,电脑的脑容量也不好存储。

这个时候VAE的编码器就先把图像压缩(可以理解成缩略图),再把图像转换为电脑认识的类似二进制0和1的东西。

理解了编码器,那VAE的解码器就很好理解了,就是把电脑自己生成的一串图像代码,再反过来转换为我们人可以看懂的图像再传输出来。

这个时候的VAE自己就是一个图像生成模型,虽然训练的稳定性还可以,但生成的图片质量那就一言难尽了。

2014年提出了提出了生成对抗网络(Generative Adversarial Networks, GAN)。

这个GAN的核心也是两个组件:

一个是生成器(Generator):负责生成假图像。

一个是判别器(Discriminator):负责区分真实图像和生成的假图像。

他们两个的训练过程就像一场"猫鼠游戏":生成器努力生成越来越逼真的图像来欺骗判别器,判别器努力提高自己的判断能力,准确识别真假图像。两者在对抗中共同进步,最终生成器能够生成以假乱真的图像。

这个GAN模型呢,相比VAE的出图质量就提高了很多,不过他有个缺点就是不稳定。

2015年的时候就有大聪明,把VAE和GAN结合起来搞了个VAE-GAN,既保持了VAE的训练稳定性,又提高了生成图像的质量,兼具两种模型的优点。

GAN的提出大大的推进了AI生图技术的发展:

2016 DCGAN:加入卷积,GAN 第一次能生成规整人像,奠定 GAN 通用结构。

2017 CycleGAN :无需配对图片,一键照片变油画、马变斑马,风格迁移鼻祖

2018--2019 StyleGAN1/2:人脸生成天花板,五官、发型、肤色可单独调控,人脸肉眼难辨真假;

但是GAN呢有个天生短板:没法用文字控制画图,不能文生图、复杂场景容易崩坏。

在GAN发展的同期呢,还有一个技术一直在猥琐的发育,那就是2015年借鉴热力学分子扩散,提出的非平衡热力学扩散生成模型Diffusion(扩散模型)

它的核心原理就是,先给一张图慢慢加噪声变成纯白噪声(正向扩散)。再逐步把噪变去掉返回原图(反向扩散,AI 生成原理)。

小朋友玩的刮刮卡,就可以非常形象的比喻这个过程!挂掉卡片上的图层,最终展示出整个图像的过程其实就和AI生图的原理类似。

虽然这个东喜2015年就提出了,但由于动辄1000步往上的采样次数,巨吃显存,根本就没法民用。所以再2020年之前一直被GAN压着打。

这里又出现了一个新词"采样 "大家先记一下,和"VAE、Clip、Lora"一样,在以后的ComfyUI的学习使用过程中将会一直陪伴在我们左右。

为了引入VAE这个概念,这篇文章还是扯得有点远了,下一章我们开始介绍**Diffusion(扩散模型),**争取在下一章把ComfyUI&AIGC基础概念及发展历程这一段结束掉,早日开启AIGC的正式学习阶段。

相关推荐
nuo5342022 小时前
人工智能生成内容 (AIGC) 期末复习资料
人工智能·aigc
知识领航员4 小时前
30个AI音乐提示词|直接复制可用,覆盖6大风格
人工智能·adobe·chatgpt·prompt·aigc·音视频
王莎莎-MinerU5 小时前
Agent 时代的科学数据 API:用 Sciverse 构建可追溯的科研检索与 RAG 工作流
大数据·人工智能·gpt·aigc·个人开发
袁庭新5 小时前
兰州信息科技学院举办AI应用能力提升培训及AIGC创新大赛
人工智能·aigc·袁庭新
meilindehuzi_a7 小时前
Node.js × 大模型:AIGC 工程化基础与异步流控总结
node.js·aigc
智写-AI17 小时前
Turnitin vs GPTZero vs ZeroGPT:三大英文AI检测平台如何选择?
人工智能·aigc·ai写作·ai自动写作
明月(Alioo)21 小时前
Netcat (nc) 操作指南
ai·aigc
DigitalOcean21 小时前
DigitalOcean 的 AI 推理路由器是如何构建的
后端·aigc·agent
AI智图坊1 天前
拒绝模板同质化:拆解自由生图功能,如何通过GPT-Image-2与Nano Banana Pro双模型驱动电商AIGC?
大数据·人工智能·gpt·ai作画·aigc