📊 生成模型评估:你选 IS 还是 FID?
在评估 GAN、Diffusion 等图像生成模型时,两个最常被提到的指标是:
🔹IS (Inception Score)
🔹FID (Fréchet Inception Distance)
🧠 Inception Score(IS)
IS 只看生成图像自身:
-
图像是否清晰?(预测分布是否尖锐)✅
-
图像是否多样?(预测类别分布是否均匀)✅
🎯 数学形式是 KL 散度,衡量生成图像的每个预测 p(y∣x)p(y|x) 和平均预测 p(y)p(y) 的差异。
🚫 缺点:没有对比真实图像,很容易"刷分"。你只需要每类生成一张清晰图就能得高分。
🧠 Fréchet Inception Distance(FID)
FID 是"实打实的对比":
-
把真实图像和生成图像都送入 Inception 模型
-
比较它们提取出的特征分布差异(均值 + 协方差)
🎯 数学本质是 Fréchet 距离(两个高斯分布的距离)
✅ 更贴近人眼感知
✅ 能捕捉"模糊"、"模式坍缩"等问题
✅ 是学术界最主流的评估指标
📌 类比总结:
指标 | 看什么 | 参考真实图像? | 容易刷分? |
---|---|---|---|
IS | 生成图像本身 | ❌ 否 | ✅ 容易 |
FID | 生成图像 vs 真实图像 | ✅ 是 | ❌ 不容易 |
🧭 实战建议:
在论文和工业应用中,IS 更适合快速测试 ,但FID 更值得信赖和发表。
👉 所以如果你正在训练 GAN,请优先报告 FID,IS 作为辅助参考即可!
📌 你平时用哪个指标评估你的模型效果?欢迎评论交流👇