AE, VAE和VQ-VAE有什么区别？

写在前面

AE, VAE, VQ-VAE是一系列的工作，其中VAE更是构成了整个AIGC的重要基石，那么他们之间有什么区别呢？

AE（AutoEncoder）是一种自编码器，能够将一个图片压缩成一个较短的向量。其结构如下所示。

它有一对编码器和解码器，编码器负责将图片压缩到一个较短的向量，而解码器负责将较短的向量恢复成图片。在训练的时候，两者做loss。但是这样的话会有一个问题，即Decoder只认识Encoder的向量，一旦我们扔掉Encoder，那么Decoder将会变得毫无用处。

如果我们能够限制住AE的编码空间，使其能够符合某个数学分布，比如标准正态分布，那么我们就可以在标准正态分布中随机采样给Decoder，那么就能够生成随机的图了。VAE就是来干这事儿的网络。网络结构如下：

但是VAE生成图的质量普遍不高，有人认为原因是因为VAE把图片编码成了连续的变量，但是我们在描述物体时，转化为离散变量会更为自然。比如我们描述一个人，不会说胖0.6, 性别是0.5, 年龄是0.3。而是说男或女，年龄20。

但是把图像编码成离散化之后，就又出现了两个新的问题。

VQVAE的作者的做法是，通过PixelCNN随机在数学分布中采样，生成小图像，再用VQGAN的decoder翻译小图像成大图像。

具体做法如下:

那么VQGAN怎么生成离散向量的呢？

作者设计了一个embedding space。

为了能够让编码器的输入向量、embedding space, 以及解码器的输入张量embedding关联起来，作者做了如下方案：

假设codebook已经训练完毕，对于编码器的每个输入z(x), 通过最近邻找到embedding中与之最相近的向量z(q), 然后用z(q)替换z(x)。