AE, VAE和VQ-VAE有什么区别?

写在前面

AE, VAE, VQ-VAE是一系列的工作,其中VAE更是构成了整个AIGC的重要基石,那么他们之间有什么区别呢?

1. AE

AE(AutoEncoder)是一种自编码器,能够将一个图片压缩成一个较短的向量。其结构如下所示。

它有一对编码器和解码器, 编码器负责将图片压缩到一个较短的向量,而解码器负责将较短的向量恢复成图片。在训练的时候,两者做loss。但是这样的话会有一个问题,即Decoder只认识Encoder的向量,一旦我们扔掉Encoder,那么Decoder将会变得毫无用处。

2. VAE

如果我们能够限制住AE的编码空间,使其能够符合某个数学分布,比如标准正态分布,那么我们就可以在标准正态分布中随机采样给Decoder,那么就能够生成随机的图了。VAE就是来干这事儿的网络。网络结构如下:

3. VQ-VAE

但是VAE生成图的质量普遍不高,有人认为原因是因为VAE把图片编码成了连续的变量,但是我们在描述物体时,转化为离散变量会更为自然。比如我们描述一个人,不会说胖0.6, 性别是0.5, 年龄是0.3。而是说男或女,年龄20。

但是把图像编码成离散化之后,就又出现了两个新的问题。

  1. 神经网络擅长处理连续的数值,而不擅长处理离散数据。解决方法是借鉴nlp中处理离散单词的方法,将连续数据处理成一个独一无二的连续向量上
  1. 另外一个问题是,离散空间不太好采样,因此不能像VAE那样进行随机图像生成。

VQVAE的作者的做法是,通过PixelCNN随机在数学分布中采样,生成小图像,再用VQGAN的decoder翻译小图像成大图像。

具体做法如下:

  1. 训练VQGAN的编码器和解码器,编码器负责将图像压缩到小图像,解码器负责将小图像还原成大图
  2. 训练PixelCNN, 让它拥有能够从随机分布中采样成小图像的能力
  3. 扔掉VQGAN的编码器,接上PixelCNN, 使得VQVAE拥有从随机分布中采样图像的能力

那么VQGAN怎么生成离散向量的呢?

作者设计了一个embedding space

为了能够让编码器的输入向量、embedding space, 以及解码器的输入张量embedding关联起来,作者做了如下方案:

假设codebook已经训练完毕,对于编码器的每个输入z(x), 通过最近邻找到embedding中与之最相近的向量z(q), 然后用z(q)替换z(x)。

相关推荐
阿_旭22 分钟前
基于YOLO26深度学习的蓝莓成熟度检测与分割系统【python源码+Pyqt5界面+数据集+训练代码】图像分割、人工智能
人工智能·python·深度学习·毕业设计·蓝莓成熟度检测
lxmyzzs25 分钟前
使用Python分析COCO数据集标注信息:一个简单脚本实现统计与可视化
python·深度学习·目标检测·计算机视觉
智算菩萨28 分钟前
【How Far Are We From AGI】4 AGI的“生理系统“——从算法架构到算力基座的工程革命
论文阅读·人工智能·深度学习·算法·ai·架构·agi
小程故事多_8031 分钟前
重构 RAG 质量标准,一套可落地、可量化的全维度评估框架
人工智能·重构·aigc·ai编程·rag
Sirius Wu38 分钟前
基于OpenClaw环境的Agent强化学习(RFT+GRPO)训练机制与自动化实践报告
人工智能·深度学习·机器学习·语言模型·aigc
猫头虎42 分钟前
从零开始,一步步安装和配置OpenClaw汉化版详细安装指南
langchain·开源·prompt·github·aigc·ai编程·agi
啊阿狸不会拉杆1 小时前
《现代人工智能基础》个人解读分享
人工智能·ai·llm·aigc·agent·ml·dl
材料科学研究1 小时前
如何下手!深度学习有限元仿真!
深度学习·仿真·有限元
万粉变现经纪人1 小时前
如何解决 pip install pillow-simd 报错 需要 AVX2/特定编译器 支持 问题
python·scrapy·beautifulsoup·aigc·pandas·pillow·pip
前端摸鱼匠1 小时前
面试题2:Transformer的Encoder、Decoder结构分别包含哪些核心组件?
人工智能·深度学习·ai·面试·职场和发展·transformer