【无标题】

生成模型评价指标(图像、视频)

  • KL散度(相对熵)
  • [IS(Inception Score)](#IS(Inception Score))
  • [FID(Fréchet Inception Distance)](#FID(Fréchet Inception Distance))
  • [Perceptual Path Length](#Perceptual Path Length)
  • FVD

KL散度(相对熵)

用于衡量两个概率分布之间的相似度,KL散度值越小,分布越相似。

其中p(x)为真实分布,q(x)为模型预测的分布。

IS(Inception Score)

用于评价生成模型所生成图片的质量与多样性,值越大越好。缺点:只考虑生成样本,真实性判断与预训练Inception v3模型的数据集强相关。

其中x为pg生成的图片。

  • p(y|x) 衡量生成图片的清晰度,熵越小,分布越尖锐,代表图像越清晰。计算方式为把x输入到Inception v3中,得到一个1000维的特征向量y,表示图片属于1000个类别的概率。图片清晰度越高,则x属于某个类别的概率就越高,即y中的某个维度的值会很大,而其他维度的值会很小。

  • p(y) 衡量图片的多样性,计算方式为取N个生成样本,求p(y|x)的均值。结果的熵越大,代表生成的图片左所有类别中的分布越均匀。

  • Dkl表示表示求p(y|x)对于p(y)的KL散度,如果 p(y|x) 和 p(y) 的距离很大,说明前者所个很尖锐的分布,而后者是一个均匀分布,从而说明模型清晰度和多样性都很好。

FID(Fréchet Inception Distance)

直接考虑生成数据和真实数据在feature(使用Inception Net-V3全连接前的2048维向量作为图片的feature)层次的距离,不再额外的借助分类器,以此来衡量生成图片和真实图片的距离,FID值越小說明相似度越高。FID无法反映生成多样性(直接copy训练集的模型FID会很小)。

本质上,FID是衡量两个多元正态分布的距离:

Perceptual Path Length

衡量模型结合不同的训练图片特征的能力,也就是生成器能否很好的把不同图片的特征分离出来,如不同的噪声z分量控制所生成图片的不同区域。

计算方式:给出两个随机噪声 ,为求得两点的感知路径长度PPL,采用微分的思想。把两噪声点插值路径细分成多个小段,求每个小段的长度,再求平均。直观来说,PPL评估利用生成器从一个图片变到另一个图片的距离,越小越好。

简单理解:越相近的输出,其对应的z应该也应该距离越小,如下图的z1和z2生成狗的图片,从z1到z2的变化路径中的z,生成的图片也应该是狗。

FVD

把图像特征提取网络换成视频特征提取网络,其他与FID基本相似

相关推荐
三毛的二哥2 小时前
BEV:典型BEV算法总结
人工智能·算法·计算机视觉·3d
<-->3 小时前
Megatron(全称 Megatron-LM,由 NVIDIA 开发)和 DeepSpeed(由 Microsoft 开发)
人工智能·pytorch·python·深度学习·transformer
Yuanxl9033 小时前
神经网络-Sequential 应用与实战
人工智能·深度学习·神经网络
真·skysys5 小时前
On-Policy Distillation
人工智能·深度学习·机器学习
懷淰メ7 小时前
【AI加持】基于PyQt+YOLO+DeepSeek的口罩佩戴检测系统(详细介绍)
yolo·计算机视觉·pyqt·口罩检测·deepseek·ai加持
AI医影跨模态组学9 小时前
Cancer Letters(IF=10.1)中科院自动化研究所田捷等团队:整合纵向MRI与活检全切片图像用于乳腺癌新辅助治疗反应的早期预测及个体化管理
人工智能·深度学习·论文·医学·医学影像
王飞飞不会飞9 小时前
Mac 安装Hermes Agent 过程记录
运维·深度学习·机器学习
是梦终空9 小时前
计算机毕业设计271—基于python+深度学习+YOLOV7的车牌识别系统(源代码+数据库+3万字论文)
python·深度学习·opencv·yolo·毕业设计·pyqt5·车牌识别系统
金融小师妹11 小时前
多因子情景推演模型:霍尔木兹扰动下的全球资产再定价与波动率重构
深度学习·svn·逻辑回归·能源
数据门徒11 小时前
神经网络核心概念 全景梳理与关系图谱
人工智能·深度学习·神经网络