【无标题】 - 技术栈

KL散度（相对熵）

用于衡量两个概率分布之间的相似度，KL散度值越小，分布越相似。

其中p(x)为真实分布，q(x)为模型预测的分布。

用于评价生成模型所生成图片的质量与多样性，值越大越好。缺点：只考虑生成样本，真实性判断与预训练Inception v3模型的数据集强相关。

其中x为pg生成的图片。

p(y|x) 衡量生成图片的清晰度，熵越小，分布越尖锐，代表图像越清晰。计算方式为把x输入到Inception v3中，得到一个1000维的特征向量y，表示图片属于1000个类别的概率。图片清晰度越高，则x属于某个类别的概率就越高，即y中的某个维度的值会很大，而其他维度的值会很小。
p(y) 衡量图片的多样性，计算方式为取N个生成样本，求p(y|x)的均值。结果的熵越大，代表生成的图片左所有类别中的分布越均匀。
Dkl表示表示求p(y|x)对于p(y)的KL散度，如果 p(y|x) 和 p(y) 的距离很大，说明前者所个很尖锐的分布，而后者是一个均匀分布，从而说明模型清晰度和多样性都很好。

直接考虑生成数据和真实数据在feature（使用Inception Net-V3全连接前的2048维向量作为图片的feature）层次的距离，不再额外的借助分类器，以此来衡量生成图片和真实图片的距离，FID值越小說明相似度越高。FID无法反映生成多样性（直接copy训练集的模型FID会很小）。

本质上，FID是衡量两个多元正态分布的距离：

衡量模型结合不同的训练图片特征的能力，也就是生成器能否很好的把不同图片的特征分离出来，如不同的噪声z分量控制所生成图片的不同区域。

计算方式：给出两个随机噪声，为求得两点的感知路径长度PPL，采用微分的思想。把两噪声点插值路径细分成多个小段，求每个小段的长度，再求平均。直观来说，PPL评估利用生成器从一个图片变到另一个图片的距离，越小越好。

简单理解：越相近的输出，其对应的z应该也应该距离越小，如下图的z1和z2生成狗的图片，从z1到z2的变化路径中的z，生成的图片也应该是狗。

把图像特征提取网络换成视频特征提取网络，其他与FID基本相似