计算机视觉各类任务评价指标详解

文章目录

计算机视觉各类任务评价指标详解
- [一、图像分类（Image Classification）](#一、图像分类（Image Classification）)
- - 常用指标
  - - [1. 准确率（Accuracy）](#1. 准确率（Accuracy）)
    - [2. Top-k Accuracy](#2. Top-k Accuracy)
    - [3. 精确率（Precision）、召回率（Recall）、F1 分数（F1-score）](#3. 精确率（Precision）、召回率（Recall）、F1 分数（F1-score）)
    - [4. AUC-ROC / PR 曲线](#4. AUC-ROC / PR 曲线)
  - 推荐数据集
- [二、目标检测（Object Detection）](#二、目标检测（Object Detection）)
- - 常用指标
  - - [1. IoU（Intersection over Union）](#1. IoU（Intersection over Union）)
    - [2. 平均精度（AP）与 mAP（mean Average Precision）](#2. 平均精度（AP）与 mAP（mean Average Precision）)
  - 推荐数据集
- [三、图像分割（Image Segmentation）](#三、图像分割（Image Segmentation）)
- - 常用指标
  - - [1. 像素准确率（Pixel Accuracy）](#1. 像素准确率（Pixel Accuracy）)
    - [2. 平均交并比（mIoU）](#2. 平均交并比（mIoU）)
    - [3. Dice 系数（Dice Coefficient）](#3. Dice 系数（Dice Coefficient）)
  - 推荐数据集
- [四、显著性检测（Salient Object Detection）](#四、显著性检测（Salient Object Detection）)
- - 常用指标
  - - [1. 平均绝对误差（MAE）](#1. 平均绝对误差（MAE）)
    - [2. F-Measure（F$_\beta$）](#2. F-Measure（F $_\beta$ ）)
    - [3. S-measure / E-measure](#3. S-measure / E-measure)
  - 推荐数据集
- 五、超分辨率重建（Super-Resolution）
- - 常用指标
  - - [1. PSNR（峰值信噪比）](#1. PSNR（峰值信噪比）)
    - [2. SSIM（结构相似性）](#2. SSIM（结构相似性）)
    - [3. LPIPS（深度感知图像相似度）](#3. LPIPS（深度感知图像相似度）)
  - 推荐数据集
- [六、人脸识别（Face Recognition）](#六、人脸识别（Face Recognition）)
- - 常用指标
  - - [1. 准确率（Accuracy）](#1. 准确率（Accuracy）)
    - [2. ROC/AUC、TPR@FPR](#2. ROC/AUC、TPR@FPR)
    - [3. EER（等错误率）](#3. EER（等错误率）)
    - [4. FAR：负样本被错误接受的比例。](#4. FAR：负样本被错误接受的比例。)
    - [5. FRR：正样本被错误拒绝的比例。](#5. FRR：正样本被错误拒绝的比例。)
    - [6. Rank-1准确率](#6. Rank-1准确率)
  - 推荐数据集
- [七、步态识别（Gait Recognition）](#七、步态识别（Gait Recognition）)
- - 常用指标
  - - [1. Rank-k Accuracy](#1. Rank-k Accuracy)
    - [2. CMC 曲线](#2. CMC 曲线)
    - [3. mAP（平均精度）](#3. mAP（平均精度）)
  - 推荐数据集
- [八、图像增强与复原（Enhancement & Restoration）](#八、图像增强与复原（Enhancement & Restoration）)
- - 常用指标
  - - [1. PSNR / SSIM](#1. PSNR / SSIM)
    - [2. NIQE / BRISQUE / PI](#2. NIQE / BRISQUE / PI)
    - [3. FID（Fréchet Inception Distance）](#3. FID（Fréchet Inception Distance）)
    - [4. LPIPS](#4. LPIPS)
    - [5. 信息熵（Entropy）](#5. 信息熵（Entropy）)
    - [6. 空间频率（SF）](#6. 空间频率（SF）)
  - 推荐数据集
- [九、图像融合（Image Fusion）](#九、图像融合（Image Fusion）)
- - 常用指标
  - - [1. 信息熵（EN）](#1. 信息熵（EN）)
    - [2. 互信息（MI）](#2. 互信息（MI）)
    - [3. Qabf、Qcv、Qp](#3. Qabf、Qcv、Qp)
    - [4. SSIM / PSNR](#4. SSIM / PSNR)
  - 推荐数据集
- [十、医学多模态影像（Medical Multimodal）](#十、医学多模态影像（Medical Multimodal）)
- - 常用指标
  - - [1. Dice 系数（DSC）](#1. Dice 系数（DSC）)
    - [2. Hausdorff 距离（HD）](#2. Hausdorff 距离（HD）)
    - [3. AUC / Sensitivity / Specificity](#3. AUC / Sensitivity / Specificity)
    - [4. PSNR / SSIM / MI](#4. PSNR / SSIM / MI)
    - [5. Hausdorff距离](#5. Hausdorff距离)
    - [6. 敏感度（Sensitivity）与特异度（Specificity）](#6. 敏感度（Sensitivity）与特异度（Specificity）)
  - 推荐数据集
图像生成任务常用评价指标全面解析
- [一、感知质量指标（Perceptual Quality）](#一、感知质量指标（Perceptual Quality）)
- - [1. PSNR（Peak Signal-to-Noise Ratio）](#1. PSNR（Peak Signal-to-Noise Ratio）)
  - [2. SSIM（Structural Similarity Index）](#2. SSIM（Structural Similarity Index）)
- [二、感知相似度指标（Perceptual Similarity）](#二、感知相似度指标（Perceptual Similarity）)
- - [3. LPIPS（Learned Perceptual Image Patch Similarity）](#3. LPIPS（Learned Perceptual Image Patch Similarity）)
- [三、图像分布类指标（Distribution Similarity）](#三、图像分布类指标（Distribution Similarity）)
- - [4. FID（Fréchet Inception Distance）](#4. FID（Fréchet Inception Distance）)
  - [5. IS（Inception Score）](#5. IS（Inception Score）)
- 四、文本图像一致性指标
- - [6. CLIP Score（Text-Image Alignment）](#6. CLIP Score（Text-Image Alignment）)
- [五、主观指标（Human Perception）](#五、主观指标（Human Perception）)
- - [7. MOS（Mean Opinion Score）](#7. MOS（Mean Opinion Score）)
- 六、无参考图像质量评估（NR-IQA）
- - [8. NIQE（Natural Image Quality Evaluator）](#8. NIQE（Natural Image Quality Evaluator）)
  - [9. PI（Perceptual Index）](#9. PI（Perceptual Index）)
- 七、指标对比与总结
- 总结

计算机视觉各类任务评价指标详解

在计算机视觉任务中，评价指标不仅是衡量模型性能的重要标准，也是科研工作中模型比较、算法优化的基础。不同任务侧重的性能维度不同，因此采用的评价指标也各异。本文从分类、检测、分割、显著性检测、超分辨率、人脸识别、步态识别、图像增强、图像融合及医学多模态影像等十大任务出发，系统介绍每种任务中的常用评价指标，给出定义、数学公式、适用场景与推荐数据集，助力你高效构建与评估视觉模型。

一、图像分类（Image Classification）

图像分类任务旨在将图像分为预定义的类别。

常用指标

1. 准确率（Accuracy）

定义： 准确率是分类正确的样本数与总样本数的比值。正确分类样本数占总样本数的比例，适用于类别均衡场景。但在样本不均衡时可能失效
A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy = \frac{TP + TN}{TP + TN + FP + FN} Accuracy=TP+TN+FP+FNTP+TN

适用于类别分布均衡的情况。

2. Top-k Accuracy

定义： 预测结果前 k 个候选类别中包含真实标签的比例。
T o p - k A c c u r a c y = Top-k 预测正确样本数总样本数 Top\text{-}k\ Accuracy = \frac{\text{Top-k 预测正确样本数}}{\text{总样本数}} Top-k Accuracy=总样本数Top-k 预测正确样本数

常用于多分类任务，如 ImageNet（Top-1、Top-5）。

3. 精确率（Precision）、召回率（Recall）、F1 分数（F1-score）

定义：

精确率：预测为正的样本中实际为正的比例，反映分类器的查准能力。
召回率：所有正样本中被正确预测的比例，反映查全能力。
F1-score：精确率与召回率的调和平均数，平衡两者关系。
P r e c i s i o n = T P T P + F P R e c a l l = T P T P + F N F 1 = 2 ⋅ P r e c i s i o n ⋅ R e c a l l P r e c i s i o n + R e c a l l Precision = \frac{TP}{TP + FP} \quad Recall = \frac{TP}{TP + FN} \quad F1 = \frac{2 \cdot Precision \cdot Recall}{Precision + Recall} Precision=TP+FPTPRecall=TP+FNTPF1=Precision+Recall2⋅Precision⋅Recall
适用于类别不平衡或多标签分类。

4. AUC-ROC / PR 曲线

定义：

ROC曲线：以假阳率（FPR）为横轴、真阳率（TPR）为纵轴，反映分类器在不同阈值下的性能。
AUC表示 ROC 曲线下的面积，，值越接近1模型性能越好，越大表示模型性能越好。适合二分类或多标签场景，尤其关注正负样本区分能力。

二、目标检测（Object Detection）

目标检测任务旨在预测图像中所有目标的位置和类别。

常用指标

1. IoU（Intersection over Union）

定义： 测量预测框与真实框之间的重叠程度，预测框与真实框的交集面积与并集面积之比，用于判断检测框的定位精度。通常设置阈值（如0.5）判定检测是否有效。
I o U = A r e a o f O v e r l a p A r e a o f U n i o n IoU = \frac{Area\ of\ Overlap}{Area\ of\ Union} IoU=Area of UnionArea of Overlap

IoU 越高表示检测结果越准确，常用阈值为 0.5 或 [0.5:0.95]。

2. 平均精度（AP）与 mAP（mean Average Precision）

定义：

AP 是 Precision-Recall 曲线下的面积，mAP 是多个类别 AP 的平均值，通过PR曲线下面积计算，反映单类别检测性能。。
A P = ∫ 0 1 p ( r ) d r m A P = 1 N ∑ i = 1 N A P i AP = \int_0^1 p(r)dr \quad\quad mAP = \frac{1}{N} \sum_{i=1}^N AP_i AP=∫01p(r)drmAP=N1i=1∑NAPi

适用于多类别目标检测任务。

mAP：多类别AP的平均值，综合评估检测模型性能。COCO数据集中进一步细分
A P 5 0 AP_50 AP50、 A P 7 5 AP_75 AP75 等指标。

三、图像分割（Image Segmentation）

图像分割旨在为每个像素赋予语义标签。

常用指标

1. 像素准确率（Pixel Accuracy）

定义： 所有像素中预测正确的比例。正确分类像素占总像素的比例，适用于简单场景。
P i x e l A c c u r a c y = ∑ T P i ∑ ( T P i + F P i + F N i ) Pixel\ Accuracy = \frac{\sum TP_i}{\sum (TP_i + FP_i + FN_i)} Pixel Accuracy=∑(TPi+FPi+FNi)∑TPi

2. 平均交并比（mIoU）

定义： 每个类别的 IoU 平均值，更关注分割边界的准确性。
I o U i = T P i T P i + F P i + F N i m I o U = 1 N ∑ i = 1 N I o U i IoU_i = \frac{TP_i}{TP_i + FP_i + FN_i} \quad\quad mIoU = \frac{1}{N} \sum_{i=1}^N IoU_i IoUi=TPi+FPi+FNiTPimIoU=N1i=1∑NIoUi

3. Dice 系数（Dice Coefficient）

定义： 衡量两个区域相似度的指标，衡量预测区域与真实区域的重叠度，医学图像分割常用。
D i c e = 2 T P 2 T P + F P + F N Dice = \frac{2TP}{2TP + FP + FN} Dice=2TP+FP+FN2TP

四、显著性检测（Salient Object Detection）

显著性检测旨在识别图像中最引人注意的区域。

常用指标

1. 平均绝对误差（MAE）

定义： 所有像素预测值与真实值的绝对差值平均，预测显著图与真实图的像素级差异平均值。
M A E = 1 H W ∑ i , j ∣ P ( i , j ) − G ( i , j ) ∣ MAE = \frac{1}{HW} \sum_{i,j} |P(i,j) - G(i,j)| MAE=HW1i,j∑∣P(i,j)−G(i,j)∣

2. F-Measure（F(_\beta)）

定义： 加权后的精确率与召回率的调和平均，结合精确率和召回率的综合评价指标，通常以最大F值（Max F）作为主要指标。。
F β = ( 1 + β 2 ) ⋅ P r e c i s i o n ⋅ R e c a l l β 2 ⋅ P r e c i s i o n + R e c a l l , β 2 = 0.3 F_\beta = \frac{(1 + \beta^2) \cdot Precision \cdot Recall}{\beta^2 \cdot Precision + Recall}, \quad \beta^2 = 0.3 Fβ=β2⋅Precision+Recall(1+β2)⋅Precision⋅Recall,β2=0.3

3. S-measure / E-measure

定义： 综合结构保留与边界一致性的显著性评估指标。

五、超分辨率重建（Super-Resolution）

重建高分辨率图像以增强细节。

常用指标

1. PSNR（峰值信噪比）

定义： 衡量图像重建质量，值越大图像越接近原始。衡量重建图像与真实图像的像素级差异，值越高越好。
P S N R = 10 ⋅ log ⁡ 10 ( M A X 2 M S E ) PSNR = 10 \cdot \log_{10}\left(\frac{MAX^2}{MSE}\right) PSNR=10⋅log10(MSEMAX2)

2. SSIM（结构相似性）

定义： 衡量结构、亮度、对比度三者相似性，更符合人眼感知。
S S I M ( x , y ) = ( 2 μ x μ y + C 1 ) ( 2 σ x y + C 2 ) ( μ x 2 + μ y 2 + C 1 ) ( σ x 2 + σ y 2 + C 2 ) SSIM(x, y) = \frac{(2\mu_x\mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)} SSIM(x,y)=(μx2+μy2+C1)(σx2+σy2+C2)(2μxμy+C1)(2σxy+C2)

3. LPIPS（深度感知图像相似度）

定义： 基于深度网络的特征距离，值越小越好。

六、人脸识别（Face Recognition）

人脸识别用于身份验证与比对。

常用指标

1. 准确率（Accuracy）

识别任务中正确识别的比例。

2. ROC/AUC、TPR@FPR

定义： 展示模型在不同阈值下的性能表现，尤其用于验证系统。

3. EER（等错误率）

定义： 假接受率等于假拒率时的误差值，越低越好。

误识率（FAR）与拒识率（FRR）

4. FAR：负样本被错误接受的比例。

5. FRR：正样本被错误拒绝的比例。

两者通过调整阈值平衡，常用ROC曲线展示7。

6. Rank-1准确率

测试样本被正确识别为Top-1候选的概率

七、步态识别（Gait Recognition）

基于人走路姿态进行身份识别。

常用指标

1. Rank-k Accuracy

定义： 查询样本在 Top-k 中被正确识别的比例。

2. CMC 曲线

定义： 展示 Rank-k 随 k 的变化趋势。

3. mAP（平均精度）

定义： 多摄像头跨视角下的平均检索精度。

八、图像增强与复原（Enhancement & Restoration）

用于图像去噪、去模糊、光照增强等。

常用指标

1. PSNR / SSIM

评估图像清晰度与结构保留程度。

2. NIQE / BRISQUE / PI

定义： 无需参考图像即可评价图像质量的指标，适合真实图像增强。

3. FID（Fréchet Inception Distance）

定义： 衡量生成图像与真实图像分布的差异。
F I D = ∣ ∣ μ r − μ g ∣ ∣ 2 + T r ( Σ r + Σ g − 2 ( Σ r Σ g ) 1 / 2 ) FID = ||\mu_r - \mu_g||^2 + Tr(\Sigma_r + \Sigma_g - 2(\Sigma_r \Sigma_g)^{1/2}) FID=∣∣μr−μg∣∣2+Tr(Σr+Σg−2(ΣrΣg)1/2)

4. LPIPS

深度学习感知的视觉相似度。

5. 信息熵（Entropy）

衡量融合图像的纹理丰富程度，熵值越高信息量越大。

6. 空间频率（SF）

反映图像空间细节的活跃度，值越高表示细节保留越好。

九、图像融合（Image Fusion）

将多源图像（如红外+可见光）融合为一张信息更丰富的图像。

常用指标

1. 信息熵（EN）

衡量图像信息含量。
E N = − ∑ i p i log ⁡ ( p i ) EN = -\sum_i p_i \log(p_i) EN=−i∑pilog(pi)

2. 互信息（MI）

衡量源图像与融合图像的相关性。

3. Qabf、Qcv、Qp

结构、梯度或边缘信息保留质量。

4. SSIM / PSNR

融合图像与源图像结构相似度。

十、医学多模态影像（Medical Multimodal）

处理 MRI、CT、PET 等不同模态图像融合与重建。

常用指标

1. Dice 系数（DSC）

衡量预测分割与真实分割的重叠度。
D i c e = 2 ∣ A ∩ B ∣ ∣ A ∣ + ∣ B ∣ Dice = \frac{2 |A \cap B|}{|A| + |B|} Dice=∣A∣+∣B∣2∣A∩B∣

2. Hausdorff 距离（HD）

定义： 测量两个边界之间最大最小距离。

3. AUC / Sensitivity / Specificity

常用于分类、检测等任务。

4. PSNR / SSIM / MI

用于配准、重建、融合等图像质量评估。

5. Hausdorff距离

衡量分割结果与真实边界的最大距离，关注极端误差。

6. 敏感度（Sensitivity）与特异度（Specificity）

敏感度：等同于召回率，关注病灶区域的检出能力。
特异度：正确识别阴性区域的能力

图像生成任务常用评价指标全面解析

在图像生成任务中，例如超分辨率、图像修复、风格迁移、图像翻译、图像增强、医学图像合成等，我们不仅需要模型生成逼真的图像，还要有客观指标来量化图像的质量和真实性。

本文将全面总结图像生成中的各类常用指标，包括：

感知质量指标（如 PSNR、SSIM）
感知相似度指标（如 LPIPS）
图像分布指标（如 FID、IS）
主观感知指标（如 MOS）
无参考质量评估（如 NIQE、PI）
文本图像对齐指标（如 CLIP Score）

一、感知质量指标（Perceptual Quality）

1. PSNR（Peak Signal-to-Noise Ratio）

定义： 衡量原图与生成图之间像素级误差的度量，数值越大，代表图像还原效果越好。

公式如下：

M S E = 1 m n ∑ i = 1 m ∑ j = 1 n [ I ( i , j ) − I ^ ( i , j ) ] 2 MSE = \frac{1}{mn} \sum_{i=1}^{m} \sum_{j=1}^{n} [I(i,j) - \hat{I}(i,j)]^2 MSE=mn1i=1∑mj=1∑n[I(i,j)−I^(i,j)]2

P S N R = 10 ⋅ log ⁡ 10 ( M A X 2 M S E ) PSNR = 10 \cdot \log_{10} \left( \frac{MAX^2}{MSE} \right) PSNR=10⋅log10(MSEMAX2)

( I )：原始图像，( \hat{I} )：生成图像
( MAX )：图像像素最大值（通常为 255）

适用场景： 超分辨率、图像去噪、图像修复等像素精确还原类任务。

2. SSIM（Structural Similarity Index）

定义： 从亮度、对比度、结构三个方面衡量两张图像的结构相似度。

公式如下：

S S I M ( x , y ) = ( 2 μ x μ y + C 1 ) ( 2 σ x y + C 2 ) ( μ x 2 + μ y 2 + C 1 ) ( σ x 2 + σ y 2 + C 2 ) SSIM(x, y) = \frac{(2\mu_x \mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)} SSIM(x,y)=(μx2+μy2+C1)(σx2+σy2+C2)(2μxμy+C1)(2σxy+C2)

( \mu )：图像均值，( \sigma^2 )：方差，( \sigma_{xy} )：协方差
( C_1, C_2 )：为了避免分母为 0 的稳定常数

适用场景： 超分辨率、图像修复、医学图像合成等需结构一致性场景。

二、感知相似度指标（Perceptual Similarity）

3. LPIPS（Learned Perceptual Image Patch Similarity）

定义： 利用深度网络提取特征图，在深度感知空间中比较两张图像的"感知距离"。

L P I P S ( x , y ) = ∑ l 1 H l W l ∑ h , w ∥ w l ⋅ ( f l x ( h , w ) − f l y ( h , w ) ) ∥ 2 2 LPIPS(x, y) = \sum_l \frac{1}{H_l W_l} \sum_{h,w} \| w_l \cdot (f_l^x(h,w) - f_l^y(h,w)) \|_2^2 LPIPS(x,y)=l∑HlWl1h,w∑∥wl⋅(flx(h,w)−fly(h,w))∥22

( f_l^x )：第 ( l ) 层卷积特征图，( w_l )：通道加权
越小表示感知上越相似

适用场景： 超分辨率、图像翻译、图像修复等注重"感知"效果的任务。

三、图像分布类指标（Distribution Similarity）

4. FID（Fréchet Inception Distance）

定义： 衡量生成图像与真实图像在高维特征空间的分布差异。

公式如下：

F I D = ∣ ∣ μ r − μ g ∣ ∣ 2 + T r ( Σ r + Σ g − 2 ( Σ r Σ g ) 1 2 ) FID = ||\mu_r - \mu_g||^2 + Tr\left( \Sigma_r + \Sigma_g - 2 (\Sigma_r \Sigma_g)^{\frac{1}{2}} \right) FID=∣∣μr−μg∣∣2+Tr(Σr+Σg−2(ΣrΣg)21)

( \mu_r, \Sigma_r )：真实图像在 Inception 网络中提取的均值与协方差
( \mu_g, \Sigma_g )：生成图像的特征均值与协方差

适用场景： GAN、图像合成、图像翻译、医学图像生成。

5. IS（Inception Score）

定义： 评价生成图像的清晰度（置信度）与多样性（类别分布广度）。

I S = exp ⁡ ( E x [ D K L ( p ( y ∣ x ) ∥ p ( y ) ) ] ) IS = \exp \left( \mathbb{E}x \left[ D{KL} (p(y|x) \| p(y)) \right] \right) IS=exp(Ex[DKL(p(y∣x)∥p(y))])

( p(y|x) )：Inception 模型对图像 (x) 的分类分布
( p(y) )：图像全集的平均预测分布

适用场景： GAN 图像质量评估（不需要真实图像）。

四、文本图像一致性指标

6. CLIP Score（Text-Image Alignment）

定义： 基于 CLIP 模型，衡量文本描述与生成图像在共享语义空间的相似度。

S c o r e = cos ⁡ ( CLIP text ( T ) , CLIP image ( I ) ) Score = \cos \left( \text{CLIP}\text{text}(T), \text{CLIP}\text{image}(I) \right) Score=cos(CLIPtext(T),CLIPimage(I))

( T )：文本描述，( I )：生成图像
越高表示图文匹配度越好

适用场景： Text-to-Image、图像编辑（如 DALL·E、Stable Diffusion）。

五、主观指标（Human Perception）

7. MOS（Mean Opinion Score）

定义： 让用户对生成图像进行打分，取平均得分，反映图像主观质量。

M O S = 1 N ∑ i = 1 N s i , s i ∈ { 1 , 2 , 3 , 4 , 5 } MOS = \frac{1}{N} \sum_{i=1}^{N} s_i \quad , \quad s_i \in \{1, 2, 3, 4, 5\} MOS=N1i=1∑Nsi,si∈{1,2,3,4,5}

( s_i )：第 ( i ) 个评审给出的打分

适用场景： 风格迁移、图像增强、美学优化等主观性强的任务。

六、无参考图像质量评估（NR-IQA）

8. NIQE（Natural Image Quality Evaluator）

定义： 衡量图像偏离自然统计分布的程度，值越小越自然。

基于自然图像统计建模，不依赖参考图像。

9. PI（Perceptual Index）

定义： 结合 Ma 感知分数与 NIQE，综合表示生成图像的感知质量。

P I = 1 2 ( N I Q E + ( 10 − M a ) ) PI = \frac{1}{2} \left( NIQE + (10 - Ma) \right) PI=21(NIQE+(10−Ma))

适用场景： 超分辨率、图像增强等任务的无参考评估。

七、指标对比与总结

指标名称	类型	是否参考图像	数值趋势	适用任务
PSNR	像素误差类	✅	越大越好	超分、修复
SSIM	结构一致性	✅	越大越好	修复、翻译
LPIPS	感知相似度	✅	越小越好	感知评估
FID	分布相似性	❌	越小越好	GAN、合成
IS	预测分布质量	❌	越大越好	生成质量
CLIP Score	图文对齐	✅	越大越好	文生图
NIQE / PI	无参考质量	❌	越小越好	增强、美学
MOS	主观打分	-	越大越好	所有视觉

总结

图像生成任务的评价指标具有多样性和层次性，建议在实验中结合**客观指标（PSNR、FID、LPIPS）与主观指标（MOS、CLIP）**进行综合评估，才能更全面地反映模型效果。