VAE(变分自编码器 Variational Auto-Encoder)学习笔记

图片生成任务

一张图片上像素的所有可能值决定了一张图片的分布空间,假设我们进行的是人脸生成任务,那整个人脸片只占整个空间的很小一部分,并且这个分布十分难表示。

隐变量

当我们在人脸图像中改变很小一些像素,整个图片看起来还是人脸,这就表明人脸图片的分布其实有一定的容错率,那么我们可以只保留更加粗糙的特征,任然能表示一张人脸。由此我们引入隐变量:

VAE当中使用的就是128维的隐变量。

AE(Auto - Encoder)

传统的AE方法就是找到这个隐变量,但是在生成问题中面临一个问题,就是随机选取一个隐变量可能只会生成出噪声。因为由图片生成的隐向量在整个分布空间中是稀疏的。

VAE

所以我们采用两种方法:

  • 图片不输出一个隐向量,而输出一个正太分布
  • 使所有输出的正态分布的叠加尽可能的接近一个正太分布。

上图中我们分别维编码器,隐空间和解码器设定了数学表达

输出从隐向量变为正态分布的两个参数

反向传播

上述训练的网络中有一步是不可导的,就是随机采样的哪个步骤。

因此,我们通过下面这个步骤使其可导

loss函数

包括两部分:图片重建loss和Kl散度loss(用于约束为正太分布)

优化目标

公式推导

这部分推导类似于DDPM

分别对两部分进行推导

注意到−d2log⁡(2π)-\frac{d}{2}\log(2\pi)−2dlog(2π)抵消。

然后再分开求这三项

带回式子后:

这样就得到了KL三度的计算方法。

相关推荐
RainCity3 天前
Java Swing 自定义组件库分享(十二)
java·笔记·后端
LinXunFeng10 天前
Obsidian - 使用 Share Note 分享笔记并自部署
前端·笔记·github
通信小呆呆15 天前
当算法有了“五感”:多模态数据融合如何向人体感官协同学习?
人工智能·学习·算法·机器学习·机器人
H__Rick15 天前
自动对焦学习-3
人工智能·学习·计算机视觉
Daisy Lee15 天前
量化学习-第1章-什么是量化金融
学习·金融·datawhale
Alsn8615 天前
等待学习-学习目录:Docker 容器安全攻防
学习·安全·docker
YM52e15 天前
买菜计算器小应用 - HarmonyOS ArkUI 开发实战-PC版本
学习·华为·harmonyos·鸿蒙·鸿蒙系统
小雨下雨的雨15 天前
HarmonyOS ArkUI训练营入门-组件掌握系列-Animation 动画效果实现-PC版本
学习·华为·harmonyos·鸿蒙
闪闪发亮的小星星15 天前
高斯光以及高斯光公式解释
笔记
cqbzcsq15 天前
CellFlow虚拟细胞论文阅读
论文阅读·人工智能·笔记·学习·生物信息