VAE（变分自编码器 Variational Auto-Encoder）学习笔记

麻雀无能为力2026-01-07 16:19

图片生成任务

一张图片上像素的所有可能值决定了一张图片的分布空间，假设我们进行的是人脸生成任务，那整个人脸片只占整个空间的很小一部分，并且这个分布十分难表示。

当我们在人脸图像中改变很小一些像素，整个图片看起来还是人脸，这就表明人脸图片的分布其实有一定的容错率，那么我们可以只保留更加粗糙的特征，任然能表示一张人脸。由此我们引入隐变量：

VAE当中使用的就是128维的隐变量。

传统的AE方法就是找到这个隐变量，但是在生成问题中面临一个问题，就是随机选取一个隐变量可能只会生成出噪声。因为由图片生成的隐向量在整个分布空间中是稀疏的。

所以我们采用两种方法：

上图中我们分别维编码器，隐空间和解码器设定了数学表达

输出从隐向量变为正态分布的两个参数

上述训练的网络中有一步是不可导的，就是随机采样的哪个步骤。

因此，我们通过下面这个步骤使其可导

包括两部分：图片重建loss和Kl散度loss（用于约束为正太分布）

这部分推导类似于DDPM

分别对两部分进行推导

注意到−d2log⁡(2π)-\frac{d}{2}\log(2\pi)−2dlog(2π)抵消。

然后再分开求这三项

带回式子后：

这样就得到了KL三度的计算方法。