第004章:ComfyUI&AIGC基础概念及发展历程(二)

在上篇文章里,我们主要介绍了AI绘画工具平台的发展历史,但我们学习AIGC最关键的其实是各种AI绘画模型,工具只是方便我们的操作使用,真正能决定图画质量的还是最各种基础的AI绘画技术。这篇文章我们将着重介绍一下AI绘画技术的发展历程。

最原始的AI绘画技术其实可以追溯到1971年,不过我不打算从1971年说起。这些远古的绘画技术和我们现在的技术其实差距很大,更多的是一种早期技术探索,感兴趣的朋友可以自行去网上搜索。

请大家先记住一个词"VAE ",这个词和上篇文章中的"Clip、Lora",在以后ComfUI的学习使用过程中将会日常伴随着我们。

2013年Variational Autoencoder(VAE) 概念正式提出。

翻译过来就是"变分自编码器"是一种人工神经网络结构,用于机器学习中的概率图模式和变分贝叶斯方法。

VAE的核心就两个:

一是编码器(Encoder):将输入图像映射到潜在空间。

二是解码器(Decoder):从潜在空间重构出图像。

通俗点我们可以这样理解,给电脑一张图片,电脑自己是不认识图片的,而且图片这种东西信息量比较大,电脑的脑容量也不好存储。

这个时候VAE的编码器就先把图像压缩(可以理解成缩略图),再把图像转换为电脑认识的类似二进制0和1的东西。

理解了编码器,那VAE的解码器就很好理解了,就是把电脑自己生成的一串图像代码,再反过来转换为我们人可以看懂的图像再传输出来。

这个时候的VAE自己就是一个图像生成模型,虽然训练的稳定性还可以,但生成的图片质量那就一言难尽了。

2014年提出了提出了生成对抗网络(Generative Adversarial Networks, GAN)。

这个GAN的核心也是两个组件:

一个是生成器(Generator):负责生成假图像。

一个是判别器(Discriminator):负责区分真实图像和生成的假图像。

他们两个的训练过程就像一场"猫鼠游戏":生成器努力生成越来越逼真的图像来欺骗判别器,判别器努力提高自己的判断能力,准确识别真假图像。两者在对抗中共同进步,最终生成器能够生成以假乱真的图像。

这个GAN模型呢,相比VAE的出图质量就提高了很多,不过他有个缺点就是不稳定。

2015年的时候就有大聪明,把VAE和GAN结合起来搞了个VAE-GAN,既保持了VAE的训练稳定性,又提高了生成图像的质量,兼具两种模型的优点。

GAN的提出大大的推进了AI生图技术的发展:

2016 DCGAN:加入卷积,GAN 第一次能生成规整人像,奠定 GAN 通用结构。

2017 CycleGAN :无需配对图片,一键照片变油画、马变斑马,风格迁移鼻祖

2018--2019 StyleGAN1/2:人脸生成天花板,五官、发型、肤色可单独调控,人脸肉眼难辨真假;

但是GAN呢有个天生短板:没法用文字控制画图,不能文生图、复杂场景容易崩坏。

在GAN发展的同期呢,还有一个技术一直在猥琐的发育,那就是2015年借鉴热力学分子扩散,提出的非平衡热力学扩散生成模型Diffusion(扩散模型)

它的核心原理就是,先给一张图慢慢加噪声变成纯白噪声(正向扩散)。再逐步把噪变去掉返回原图(反向扩散,AI 生成原理)。

小朋友玩的刮刮卡,就可以非常形象的比喻这个过程!挂掉卡片上的图层,最终展示出整个图像的过程其实就和AI生图的原理类似。

虽然这个东喜2015年就提出了,但由于动辄1000步往上的采样次数,巨吃显存,根本就没法民用。所以再2020年之前一直被GAN压着打。

这里又出现了一个新词"采样 "大家先记一下,和"VAE、Clip、Lora"一样,在以后的ComfyUI的学习使用过程中将会一直陪伴在我们左右。

为了引入VAE这个概念,这篇文章还是扯得有点远了,下一章我们开始介绍**Diffusion(扩散模型),**争取在下一章把ComfyUI&AIGC基础概念及发展历程这一段结束掉,早日开启AIGC的正式学习阶段。

相关推荐
MobotStone5 小时前
AI项目越多,为什么越容易失控
人工智能·aigc
刘棕霆7 小时前
19—MD5 缓存让测评系统学会了推断,而不是询问
aigc·测试
ZJPRENO9 小时前
成本直降 80%!豆包 2.1 Pro 问世,海外高端模型性价比优势全无
aigc
ServBay1 天前
如何利用本地技术栈构建 0 成本 AI SaaS 雏形
后端·aigc·ai编程
RainmeoX1 天前
Gemma 4 情绪分类微调实录:AMD ROCm 单卡 + LoRA 全流程
aigc
leeyi1 天前
Deer-Go:字节 Deer-Flow 的 Go 移植,深度研究 Agent 全拆解
go·aigc·agent
threerocks2 天前
AI编程的商业模式已经在互联网大厂跑通了
程序员·aigc·ai编程
怕浪猫2 天前
第3章 记忆系统:构建Agent的长期与短期记忆
aigc·openai·ai编程
DigitalOcean2 天前
AI 推理采用本地 + Serverless 混合架构:让敏感数据不出户,算力成本更低
aigc·agent
leeyi2 天前
Manus Agent:一个全能 AI,和一支研究团队
后端·aigc·agent