深度学习评价指标（1）：目标检测的评价指标

1. 简述

在计算机视觉/深度学习领域，每一个方向都有属于自己的评价指标。通常在评估一个模型时，只需要计算出相应的评价指标，便可以评估算法的性能。同时，所谓SOTA，皆是基于某一评价指标进行的评估。

接下来，我们将对目标检测领域的评价指标做一个大体的说明，其中涉及Precision，AP，mAP，Accuracy等指标。

交并比，表示实际识别框与目标标注框的重合程度，如下绿色框为数据标注框，红色为实际识别框(预测框)，两者做交集面积与并集面积比，衡量识别性能；

针对特定类别α，衡量识别出的目标中，识别正确的数量占比。

假设识别出的类别α有P个目标，其中识别正确的为TP个，错误的为FP个，有关系P = TP+FP，识别精准率Precision计算如下：

更进一步，识别正确的判定可依据IOU为50%，75%或95%来认定，对应的有Precision@0.5，Precision@0.75和Precision@0.95。

Precision表示所有被检测为正例的情况下，实际为正例的比例。

假设当前样本中共有M个类别为α的目标，识别出的目标数量为TP个，未被识别的有FN个，及M = TP + FN，则有如下关系：

Recall表示所有应该被检测为正例的情况是，实际被检测为正例的情况。

特别注意：

查准率和查全率往往是一个互相矛盾的优化方向。如果我们想要提高查准率，那么我们可以通过提高阈值，这样可以检测出实际更可靠的正例，提高（TP）的数量，那些被错误检测为正例（TP）的数量相应会减小。这样一来，Precision就会变大。

但是这个时候，一些实际为正例，但没有被检测到的目标（FN）的数量就会增加，这个时候Recall会变小。

平均精度是针对单个类来讲的，首先计算单个类的PR曲线，AP则是PR曲线下的面积。

选取IOU取[0.5 : 0.95 : 0.05]([start:stop:step])，测得每一个IOU下的Precision和Recall，计算PR曲线下的面积。

如下图所示，为PR曲线样例，其中横轴一般为Recall，纵轴一般为Precision。

AP是针对单个类的评价参数，而mAP则是针对多个类的一个综合评价参数。如果有多个类别，我们分别计算每一个类别的AP，然后取平均，得到mAP(mean Average Precision)。

其中，为类别i的平均精度，N为类别数。

以上查准率和查全率以及对应的综合评价参数都是针对正例而言的。而准确率则是针对所有的正负例，是一个综合的评价指标。

预测的所有目标中，预测正确的占比。准确率提供了模型对所有类别预测准确性的总体评估，它是一个直观的性能指标，表明模型在所有预测中有多少是正确的。

准确率提供了模型对所有类别预测的整体准确度，但它可能受到类别不平衡的影响。例如，如果负类样本远多于正类样本，那么即使模型只是简单地将所有样本预测为负类，准确率也可能会很高，但这并不意味着模型具有良好的预测性能。