分类问题常用评估指标

一、二分类

[1、准确率（ Accuracy）](#1、准确率（ Accuracy）)

[2、精确率（ Precision）](#2、精确率（ Precision）)

[3、召回率 (Recall）](#3、召回率 (Recall）)

4、F1-Score

[5、ROC 曲线](#5、ROC 曲线)

二、多分类

[1、准确率（ Accuracy）](#1、准确率（ Accuracy）)

[2、精确率（ Precision）and 召回率 (Recall）](#2、精确率（ Precision）and 召回率 (Recall）)

3、F1-Score

4、混淆矩阵

一、二分类

对于二分类问题，它的样本只有正样本和负样本两类。以垃圾邮件分类为例，正样本是垃圾邮件，负样本是正常邮件。

TP（True Positive） ：正样本被分类器判定为正样本的数量
FN（False Negative）：正样本被判定为负样本

TN（True Negative） ：负样本被分类器判定为负样本的数量
FP（ False Positive）：负样本被判定为正样本的数量

1、准确率（ Accuracy）

准确率就是模型预测正确的样本数量占总样本数量的比例。

缺点：但是对于数据集不平衡的情况，准确率就不具有代表性了。比如：有的类别样本多，有的类别样本占比小。若样本多的类别识别率很高，样本少的类别都识别错误，此时用准确率来评估模型的好坏显然不是很好的选择。

2、精确率（ Precision）

被分类器判定为正样本的样本中真正的正样本所占的比例

3、召回率 (Recall）

所有正样本中被分类器判定为正样本的比例

4、F1-Score

精确率（ P）与召回率（ R）的调和平均

Precision 和 Recall 是一对相互矛盾的量，当 P 高时， R 往往相对较低，当 R 高时， P 往往相对较低，所以为了更好的评价分类器的性能，一般使用F1-Score 作为评价标准来衡量分类器的综合性能。

5、ROC 曲线

真阳率TPR即为召回率，假阳率FPR即为精确率

FPR 作为横坐标， TPR 作为纵坐标得到 ROC 曲线。当假阳率增加时真阳率也会增加，因此，它是一条向上增长的曲线。一个好的分类器应该保证真阳率高而假阳率低，所以 ROC 曲线越靠近左上角，该分类器的性能越好。

二、多分类

1、准确率（ Accuracy）

同上

2、精确率（ Precision）and 召回率 (Recall）

需要分别计算每个类别的精确率和召回率，以及它们的平均值。

3、F1-Score

同样需要分别计算每个类别的 F1 分数，及其平均值

4、混淆矩阵

对于 k 分类问题，混淆矩阵为 k× k 的矩阵，它的元素表示第 i 类样本被分类器判定为第 j 类的数量。如果所有样本都被正确分类，则该矩阵为对角阵，因此，对角线上的值越大，分类器的准确率越高。