文章目录
- 计算机视觉各类任务评价指标详解
-
- [一、图像分类(Image Classification)](#一、图像分类(Image Classification))
- [二、目标检测(Object Detection)](#二、目标检测(Object Detection))
- [三、图像分割(Image Segmentation)](#三、图像分割(Image Segmentation))
- [四、显著性检测(Salient Object Detection)](#四、显著性检测(Salient Object Detection))
- 五、超分辨率重建(Super-Resolution)
- [六、人脸识别(Face Recognition)](#六、人脸识别(Face Recognition))
- [七、步态识别(Gait Recognition)](#七、步态识别(Gait Recognition))
- [八、图像增强与复原(Enhancement & Restoration)](#八、图像增强与复原(Enhancement & Restoration))
- [九、图像融合(Image Fusion)](#九、图像融合(Image Fusion))
- [十、医学多模态影像(Medical Multimodal)](#十、医学多模态影像(Medical Multimodal))
-
- 常用指标
-
- [1. Dice 系数(DSC)](#1. Dice 系数(DSC))
- [2. Hausdorff 距离(HD)](#2. Hausdorff 距离(HD))
- [3. AUC / Sensitivity / Specificity](#3. AUC / Sensitivity / Specificity)
- [4. PSNR / SSIM / MI](#4. PSNR / SSIM / MI)
- [5. Hausdorff距离](#5. Hausdorff距离)
- [6. 敏感度(Sensitivity)与特异度(Specificity)](#6. 敏感度(Sensitivity)与特异度(Specificity))
- 推荐数据集
- 图像生成任务常用评价指标全面解析
-
- [一、感知质量指标(Perceptual Quality)](#一、感知质量指标(Perceptual Quality))
-
- [1. PSNR(Peak Signal-to-Noise Ratio)](#1. PSNR(Peak Signal-to-Noise Ratio))
- [2. SSIM(Structural Similarity Index)](#2. SSIM(Structural Similarity Index))
- [二、感知相似度指标(Perceptual Similarity)](#二、感知相似度指标(Perceptual Similarity))
-
- [3. LPIPS(Learned Perceptual Image Patch Similarity)](#3. LPIPS(Learned Perceptual Image Patch Similarity))
- [三、图像分布类指标(Distribution Similarity)](#三、图像分布类指标(Distribution Similarity))
-
- [4. FID(Fréchet Inception Distance)](#4. FID(Fréchet Inception Distance))
- [5. IS(Inception Score)](#5. IS(Inception Score))
- 四、文本图像一致性指标
-
- [6. CLIP Score(Text-Image Alignment)](#6. CLIP Score(Text-Image Alignment))
- [五、主观指标(Human Perception)](#五、主观指标(Human Perception))
-
- [7. MOS(Mean Opinion Score)](#7. MOS(Mean Opinion Score))
- 六、无参考图像质量评估(NR-IQA)
-
- [8. NIQE(Natural Image Quality Evaluator)](#8. NIQE(Natural Image Quality Evaluator))
- [9. PI(Perceptual Index)](#9. PI(Perceptual Index))
- 七、指标对比与总结
- 总结
计算机视觉各类任务评价指标详解
在计算机视觉任务中,评价指标不仅是衡量模型性能的重要标准,也是科研工作中模型比较、算法优化的基础。不同任务侧重的性能维度不同,因此采用的评价指标也各异。本文从分类、检测、分割、显著性检测、超分辨率、人脸识别、步态识别、图像增强、图像融合及医学多模态影像等十大任务出发,系统介绍每种任务中的常用评价指标,给出定义、数学公式、适用场景与推荐数据集,助力你高效构建与评估视觉模型。
一、图像分类(Image Classification)
图像分类任务旨在将图像分为预定义的类别。
常用指标
1. 准确率(Accuracy)
定义: 准确率是分类正确的样本数与总样本数的比值。正确分类样本数占总样本数的比例,适用于类别均衡场景。但在样本不均衡时可能失效
A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy = \frac{TP + TN}{TP + TN + FP + FN} Accuracy=TP+TN+FP+FNTP+TN
适用于类别分布均衡的情况。
2. Top-k Accuracy
定义: 预测结果前 k 个候选类别中包含真实标签的比例。
T o p - k A c c u r a c y = Top-k 预测正确样本数 总样本数 Top\text{-}k\ Accuracy = \frac{\text{Top-k 预测正确样本数}}{\text{总样本数}} Top-k Accuracy=总样本数Top-k 预测正确样本数
常用于多分类任务,如 ImageNet(Top-1、Top-5)。
3. 精确率(Precision)、召回率(Recall)、F1 分数(F1-score)
定义:
- 精确率:预测为正的样本中实际为正的比例,反映分类器的查准能力。
- 召回率:所有正样本中被正确预测的比例,反映查全能力。
- F1-score:精确率与召回率的调和平均数,平衡两者关系。
P r e c i s i o n = T P T P + F P R e c a l l = T P T P + F N F 1 = 2 ⋅ P r e c i s i o n ⋅ R e c a l l P r e c i s i o n + R e c a l l Precision = \frac{TP}{TP + FP} \quad Recall = \frac{TP}{TP + FN} \quad F1 = \frac{2 \cdot Precision \cdot Recall}{Precision + Recall} Precision=TP+FPTPRecall=TP+FNTPF1=Precision+Recall2⋅Precision⋅Recall
适用于类别不平衡或多标签分类。
4. AUC-ROC / PR 曲线
定义:
- ROC曲线:以假阳率(FPR)为横轴、真阳率(TPR)为纵轴,反映分类器在不同阈值下的性能。
- AUC表示 ROC 曲线下的面积,,值越接近1模型性能越好,越大表示模型性能越好。适合二分类或多标签场景,尤其关注正负样本区分能力。
推荐数据集
CIFAR-10/100、ImageNet、MNIST、Fashion-MNIST
二、目标检测(Object Detection)
目标检测任务旨在预测图像中所有目标的位置和类别。
常用指标
1. IoU(Intersection over Union)
定义: 测量预测框与真实框之间的重叠程度,预测框与真实框的交集面积与并集面积之比,用于判断检测框的定位精度。通常设置阈值(如0.5)判定检测是否有效。
I o U = A r e a o f O v e r l a p A r e a o f U n i o n IoU = \frac{Area\ of\ Overlap}{Area\ of\ Union} IoU=Area of UnionArea of Overlap
IoU 越高表示检测结果越准确,常用阈值为 0.5 或 [0.5:0.95]。
2. 平均精度(AP)与 mAP(mean Average Precision)
定义:
AP 是 Precision-Recall 曲线下的面积,mAP 是多个类别 AP 的平均值,通过PR曲线下面积计算,反映单类别检测性能。。
A P = ∫ 0 1 p ( r ) d r m A P = 1 N ∑ i = 1 N A P i AP = \int_0^1 p(r)dr \quad\quad mAP = \frac{1}{N} \sum_{i=1}^N AP_i AP=∫01p(r)drmAP=N1i=1∑NAPi
适用于多类别目标检测任务。
mAP:多类别AP的平均值,综合评估检测模型性能。COCO数据集中进一步细分
A P 5 0 AP_50 AP50、 A P 7 5 AP_75 AP75 等指标。
推荐数据集
COCO、Pascal VOC、WIDER FACE、OpenImages
三、图像分割(Image Segmentation)
图像分割旨在为每个像素赋予语义标签。
常用指标
1. 像素准确率(Pixel Accuracy)
定义: 所有像素中预测正确的比例。正确分类像素占总像素的比例,适用于简单场景。
P i x e l A c c u r a c y = ∑ T P i ∑ ( T P i + F P i + F N i ) Pixel\ Accuracy = \frac{\sum TP_i}{\sum (TP_i + FP_i + FN_i)} Pixel Accuracy=∑(TPi+FPi+FNi)∑TPi
2. 平均交并比(mIoU)
定义: 每个类别的 IoU 平均值,更关注分割边界的准确性。
I o U i = T P i T P i + F P i + F N i m I o U = 1 N ∑ i = 1 N I o U i IoU_i = \frac{TP_i}{TP_i + FP_i + FN_i} \quad\quad mIoU = \frac{1}{N} \sum_{i=1}^N IoU_i IoUi=TPi+FPi+FNiTPimIoU=N1i=1∑NIoUi
3. Dice 系数(Dice Coefficient)
定义: 衡量两个区域相似度的指标,衡量预测区域与真实区域的重叠度,医学图像分割常用。
D i c e = 2 T P 2 T P + F P + F N Dice = \frac{2TP}{2TP + FP + FN} Dice=2TP+FP+FN2TP
推荐数据集
Cityscapes、ADE20K、ISIC、BraTS、CamVid
四、显著性检测(Salient Object Detection)
显著性检测旨在识别图像中最引人注意的区域。
常用指标
1. 平均绝对误差(MAE)
定义: 所有像素预测值与真实值的绝对差值平均,预测显著图与真实图的像素级差异平均值。
M A E = 1 H W ∑ i , j ∣ P ( i , j ) − G ( i , j ) ∣ MAE = \frac{1}{HW} \sum_{i,j} |P(i,j) - G(i,j)| MAE=HW1i,j∑∣P(i,j)−G(i,j)∣
2. F-Measure(F(_\beta))
定义: 加权后的精确率与召回率的调和平均,结合精确率和召回率的综合评价指标,通常以最大F值(Max F)作为主要指标。。
F β = ( 1 + β 2 ) ⋅ P r e c i s i o n ⋅ R e c a l l β 2 ⋅ P r e c i s i o n + R e c a l l , β 2 = 0.3 F_\beta = \frac{(1 + \beta^2) \cdot Precision \cdot Recall}{\beta^2 \cdot Precision + Recall}, \quad \beta^2 = 0.3 Fβ=β2⋅Precision+Recall(1+β2)⋅Precision⋅Recall,β2=0.3
3. S-measure / E-measure
定义: 综合结构保留与边界一致性的显著性评估指标。
推荐数据集
DUTS、HKU-IS、ECSSD、PASCAL-S
五、超分辨率重建(Super-Resolution)
重建高分辨率图像以增强细节。
常用指标
1. PSNR(峰值信噪比)
定义: 衡量图像重建质量,值越大图像越接近原始。衡量重建图像与真实图像的像素级差异,值越高越好。
P S N R = 10 ⋅ log 10 ( M A X 2 M S E ) PSNR = 10 \cdot \log_{10}\left(\frac{MAX^2}{MSE}\right) PSNR=10⋅log10(MSEMAX2)
2. SSIM(结构相似性)
定义: 衡量结构、亮度、对比度三者相似性,更符合人眼感知。
S S I M ( x , y ) = ( 2 μ x μ y + C 1 ) ( 2 σ x y + C 2 ) ( μ x 2 + μ y 2 + C 1 ) ( σ x 2 + σ y 2 + C 2 ) SSIM(x, y) = \frac{(2\mu_x\mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)} SSIM(x,y)=(μx2+μy2+C1)(σx2+σy2+C2)(2μxμy+C1)(2σxy+C2)
3. LPIPS(深度感知图像相似度)
定义: 基于深度网络的特征距离,值越小越好。
推荐数据集
Set5、Set14、DIV2K、BSD100、Urban100
六、人脸识别(Face Recognition)
人脸识别用于身份验证与比对。
常用指标
1. 准确率(Accuracy)
识别任务中正确识别的比例。
2. ROC/AUC、TPR@FPR
定义: 展示模型在不同阈值下的性能表现,尤其用于验证系统。
3. EER(等错误率)
定义: 假接受率等于假拒率时的误差值,越低越好。
误识率(FAR)与拒识率(FRR)
4. FAR:负样本被错误接受的比例。
5. FRR:正样本被错误拒绝的比例。
两者通过调整阈值平衡,常用ROC曲线展示7。
6. Rank-1准确率
测试样本被正确识别为Top-1候选的概率
推荐数据集
LFW、MS-Celeb-1M、MegaFace、VGGFace2
七、步态识别(Gait Recognition)
基于人走路姿态进行身份识别。
常用指标
1. Rank-k Accuracy
定义: 查询样本在 Top-k 中被正确识别的比例。
2. CMC 曲线
定义: 展示 Rank-k 随 k 的变化趋势。
3. mAP(平均精度)
定义: 多摄像头跨视角下的平均检索精度。
推荐数据集
CASIA-B、GREW、OU-MVLP、Gait3D
八、图像增强与复原(Enhancement & Restoration)
用于图像去噪、去模糊、光照增强等。
常用指标
1. PSNR / SSIM
评估图像清晰度与结构保留程度。
2. NIQE / BRISQUE / PI
定义: 无需参考图像即可评价图像质量的指标,适合真实图像增强。
3. FID(Fréchet Inception Distance)
定义: 衡量生成图像与真实图像分布的差异。
F I D = ∣ ∣ μ r − μ g ∣ ∣ 2 + T r ( Σ r + Σ g − 2 ( Σ r Σ g ) 1 / 2 ) FID = ||\mu_r - \mu_g||^2 + Tr(\Sigma_r + \Sigma_g - 2(\Sigma_r \Sigma_g)^{1/2}) FID=∣∣μr−μg∣∣2+Tr(Σr+Σg−2(ΣrΣg)1/2)
4. LPIPS
深度学习感知的视觉相似度。
5. 信息熵(Entropy)
衡量融合图像的纹理丰富程度,熵值越高信息量越大。
6. 空间频率(SF)
反映图像空间细节的活跃度,值越高表示细节保留越好。
推荐数据集
LOL、REDS、Rain100、GoPro
九、图像融合(Image Fusion)
将多源图像(如红外+可见光)融合为一张信息更丰富的图像。
常用指标
1. 信息熵(EN)
衡量图像信息含量。
E N = − ∑ i p i log ( p i ) EN = -\sum_i p_i \log(p_i) EN=−i∑pilog(pi)
2. 互信息(MI)
衡量源图像与融合图像的相关性。
3. Qabf、Qcv、Qp
结构、梯度或边缘信息保留质量。
4. SSIM / PSNR
融合图像与源图像结构相似度。
推荐数据集
TNO、M3FD、LLVIP、RoadScene
十、医学多模态影像(Medical Multimodal)
处理 MRI、CT、PET 等不同模态图像融合与重建。
常用指标
1. Dice 系数(DSC)
衡量预测分割与真实分割的重叠度。
D i c e = 2 ∣ A ∩ B ∣ ∣ A ∣ + ∣ B ∣ Dice = \frac{2 |A \cap B|}{|A| + |B|} Dice=∣A∣+∣B∣2∣A∩B∣
2. Hausdorff 距离(HD)
定义: 测量两个边界之间最大最小距离。
3. AUC / Sensitivity / Specificity
常用于分类、检测等任务。
4. PSNR / SSIM / MI
用于配准、重建、融合等图像质量评估。
5. Hausdorff距离
衡量分割结果与真实边界的最大距离,关注极端误差。
6. 敏感度(Sensitivity)与特异度(Specificity)
-
敏感度:等同于召回率,关注病灶区域的检出能力。
-
特异度:正确识别阴性区域的能力
推荐数据集
BraTS、TCIA、MM-WHS、CHAOS、Synapse
图像生成任务常用评价指标全面解析
在图像生成任务中,例如超分辨率、图像修复、风格迁移、图像翻译、图像增强、医学图像合成等,我们不仅需要模型生成逼真的图像,还要有客观指标来量化图像的质量和真实性。
本文将全面总结图像生成中的各类常用指标,包括:
- 感知质量指标(如 PSNR、SSIM)
- 感知相似度指标(如 LPIPS)
- 图像分布指标(如 FID、IS)
- 主观感知指标(如 MOS)
- 无参考质量评估(如 NIQE、PI)
- 文本图像对齐指标(如 CLIP Score)
一、感知质量指标(Perceptual Quality)
1. PSNR(Peak Signal-to-Noise Ratio)
定义: 衡量原图与生成图之间像素级误差的度量,数值越大,代表图像还原效果越好。
公式如下:
M S E = 1 m n ∑ i = 1 m ∑ j = 1 n [ I ( i , j ) − I ^ ( i , j ) ] 2 MSE = \frac{1}{mn} \sum_{i=1}^{m} \sum_{j=1}^{n} [I(i,j) - \hat{I}(i,j)]^2 MSE=mn1i=1∑mj=1∑n[I(i,j)−I^(i,j)]2
P S N R = 10 ⋅ log 10 ( M A X 2 M S E ) PSNR = 10 \cdot \log_{10} \left( \frac{MAX^2}{MSE} \right) PSNR=10⋅log10(MSEMAX2)
- ( I ):原始图像,( \hat{I} ):生成图像
- ( MAX ):图像像素最大值(通常为 255)
适用场景: 超分辨率、图像去噪、图像修复等像素精确还原类任务。
2. SSIM(Structural Similarity Index)
定义: 从亮度、对比度、结构三个方面衡量两张图像的结构相似度。
公式如下:
S S I M ( x , y ) = ( 2 μ x μ y + C 1 ) ( 2 σ x y + C 2 ) ( μ x 2 + μ y 2 + C 1 ) ( σ x 2 + σ y 2 + C 2 ) SSIM(x, y) = \frac{(2\mu_x \mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)} SSIM(x,y)=(μx2+μy2+C1)(σx2+σy2+C2)(2μxμy+C1)(2σxy+C2)
- ( \mu ):图像均值,( \sigma^2 ):方差,( \sigma_{xy} ):协方差
- ( C_1, C_2 ):为了避免分母为 0 的稳定常数
适用场景: 超分辨率、图像修复、医学图像合成等需结构一致性场景。
二、感知相似度指标(Perceptual Similarity)
3. LPIPS(Learned Perceptual Image Patch Similarity)
定义: 利用深度网络提取特征图,在深度感知空间中比较两张图像的"感知距离"。
L P I P S ( x , y ) = ∑ l 1 H l W l ∑ h , w ∥ w l ⋅ ( f l x ( h , w ) − f l y ( h , w ) ) ∥ 2 2 LPIPS(x, y) = \sum_l \frac{1}{H_l W_l} \sum_{h,w} \| w_l \cdot (f_l^x(h,w) - f_l^y(h,w)) \|_2^2 LPIPS(x,y)=l∑HlWl1h,w∑∥wl⋅(flx(h,w)−fly(h,w))∥22
- ( f_l^x ):第 ( l ) 层卷积特征图,( w_l ):通道加权
- 越小表示感知上越相似
适用场景: 超分辨率、图像翻译、图像修复等注重"感知"效果的任务。
三、图像分布类指标(Distribution Similarity)
4. FID(Fréchet Inception Distance)
定义: 衡量生成图像与真实图像在高维特征空间的分布差异。
公式如下:
F I D = ∣ ∣ μ r − μ g ∣ ∣ 2 + T r ( Σ r + Σ g − 2 ( Σ r Σ g ) 1 2 ) FID = ||\mu_r - \mu_g||^2 + Tr\left( \Sigma_r + \Sigma_g - 2 (\Sigma_r \Sigma_g)^{\frac{1}{2}} \right) FID=∣∣μr−μg∣∣2+Tr(Σr+Σg−2(ΣrΣg)21)
- ( \mu_r, \Sigma_r ):真实图像在 Inception 网络中提取的均值与协方差
- ( \mu_g, \Sigma_g ):生成图像的特征均值与协方差
适用场景: GAN、图像合成、图像翻译、医学图像生成。
5. IS(Inception Score)
定义: 评价生成图像的清晰度(置信度)与多样性(类别分布广度)。
I S = exp ( E x [ D K L ( p ( y ∣ x ) ∥ p ( y ) ) ] ) IS = \exp \left( \mathbb{E}x \left[ D{KL} (p(y|x) \| p(y)) \right] \right) IS=exp(Ex[DKL(p(y∣x)∥p(y))])
- ( p(y|x) ):Inception 模型对图像 (x) 的分类分布
- ( p(y) ):图像全集的平均预测分布
适用场景: GAN 图像质量评估(不需要真实图像)。
四、文本图像一致性指标
6. CLIP Score(Text-Image Alignment)
定义: 基于 CLIP 模型,衡量文本描述与生成图像在共享语义空间的相似度。
S c o r e = cos ( CLIP text ( T ) , CLIP image ( I ) ) Score = \cos \left( \text{CLIP}\text{text}(T), \text{CLIP}\text{image}(I) \right) Score=cos(CLIPtext(T),CLIPimage(I))
- ( T ):文本描述,( I ):生成图像
- 越高表示图文匹配度越好
适用场景: Text-to-Image、图像编辑(如 DALL·E、Stable Diffusion)。
五、主观指标(Human Perception)
7. MOS(Mean Opinion Score)
定义: 让用户对生成图像进行打分,取平均得分,反映图像主观质量。
M O S = 1 N ∑ i = 1 N s i , s i ∈ { 1 , 2 , 3 , 4 , 5 } MOS = \frac{1}{N} \sum_{i=1}^{N} s_i \quad , \quad s_i \in \{1, 2, 3, 4, 5\} MOS=N1i=1∑Nsi,si∈{1,2,3,4,5}
- ( s_i ):第 ( i ) 个评审给出的打分
适用场景: 风格迁移、图像增强、美学优化等主观性强的任务。
六、无参考图像质量评估(NR-IQA)
8. NIQE(Natural Image Quality Evaluator)
定义: 衡量图像偏离自然统计分布的程度,值越小越自然。
基于自然图像统计建模,不依赖参考图像。
9. PI(Perceptual Index)
定义: 结合 Ma 感知分数与 NIQE,综合表示生成图像的感知质量。
P I = 1 2 ( N I Q E + ( 10 − M a ) ) PI = \frac{1}{2} \left( NIQE + (10 - Ma) \right) PI=21(NIQE+(10−Ma))
适用场景: 超分辨率、图像增强等任务的无参考评估。
七、指标对比与总结
指标名称 | 类型 | 是否参考图像 | 数值趋势 | 适用任务 |
---|---|---|---|---|
PSNR | 像素误差类 | ✅ | 越大越好 | 超分、修复 |
SSIM | 结构一致性 | ✅ | 越大越好 | 修复、翻译 |
LPIPS | 感知相似度 | ✅ | 越小越好 | 感知评估 |
FID | 分布相似性 | ❌ | 越小越好 | GAN、合成 |
IS | 预测分布质量 | ❌ | 越大越好 | 生成质量 |
CLIP Score | 图文对齐 | ✅ | 越大越好 | 文生图 |
NIQE / PI | 无参考质量 | ❌ | 越小越好 | 增强、美学 |
MOS | 主观打分 | - | 越大越好 | 所有视觉 |
总结
图像生成任务的评价指标具有多样性和层次性,建议在实验中结合**客观指标(PSNR、FID、LPIPS)与主观指标(MOS、CLIP)**进行综合评估,才能更全面地反映模型效果。