【笔记】深度学习模型评估指标

推荐链接：

（0）多分类器的评价指标

（1）泛化误差的评价方法：【机器学习】模型评估与选择（留出法、交叉验证法、查全率、查准率、偏差、方差）

（2）机器学习：数据分布的漂移问题及应对方案

（3）机器学习：准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线、PR曲线

0.背景+名词解释

名词解释：

（1）过拟合：是指学习模型对训练样本预测得很好，但对新样本预测很差的现象。这通常是由于学习模型能力过于强大，以至于把训练样本自身的一些特点当做了一般性质。过拟合是无法彻底避免的，只能缓解。模型选择就是要旨在避免过拟合并提高模型的预测能力。

（2）准确性：模型在训练数据集上的性能。

（3）泛化能力：模型在新数据集上的性能。

（4）过拟合：模型在训练数据集上表现良好，但在新数据集上表现差。

（5）欠拟合：模型在训练数据集和新数据集上表现差。

（6）验证集：用于评估模型性能的数据集，与训练集和测试集不同。

（7）交叉验证：在多个子集上进行验证，以减少验证集的随机性。

1.训练效果(泛化能力)评价指标

机器学习模型评估指标（有大量错误，需核对）

1.1.名词解释

损失函数（Loss Function）：深度学习模型在训练过程中使用损失函数来衡量预测值与真实值之间的差异。通常，通过优化算法（如梯度下降）最小化损失函数来调整模型的权重和参数。较低的损失值通常表示模型在训练数据上的拟合程度较好。
准确率（Accuracy）：准确率是评估深度学习模型分类性能的常见指标。它衡量模型在所有样本中正确分类的比例。准确率可以通过在测试集上计算正确分类的样本数除以总样本数得到。
验证集（Validation Set）：在训练过程中，可以将一部分数据集分离出来作为验证集，用于评估模型在未见过的数据上的性能。通过在验证集上计算损失和准确率等指标，可以判断模型的泛化能力。
混淆矩阵（Confusion Matrix）：混淆矩阵是用于评估分类模型性能的工具。它展示了模型在不同类别上的分类结果，包括真正例（True Positive，TP）、真负例（True Negative，TN）、假正例（False Positive，FP）和假负例（False Negative，FN）。基于混淆矩阵，可以计算出精确度（Precision）、召回率（Recall）和F1值等指标。
ROC曲线和AUC值：ROC曲线和AUC是用于评估二分类模型性能的指标。ROC曲线是以不同阈值下真正例率（True Positive Rate，TPR）和假正例率（False Positive Rate，FPR）为横纵轴绘制的曲线。AUC（Area Under Curve）是ROC曲线下的面积，用于衡量模型在所有可能阈值下的平均性能。
平均精确度（Average Precision）：平均精确度是用于评估目标检测和图像分割等任务的指标。它基于不同阈值下的精确度-召回率曲线，计算出曲线下的平均精确度。特定任务的指标：对于特定任务，可以选择适合的指标来评估模型的性能。例如，对于语言生成任务，可以使用BLEU（Bilingual Evaluation Understudy）指标来衡量生成文本的质量。

1.2.名词解释

准确性（Accuracy）：准确性是最常用的性能指标之一，用于衡量模型在整体数据集上的预测准确率。它可以通过计算正确预测的样本数量与总样本数量的比例来得到。
损失函数（Loss Function）：损失函数衡量了模型的预测输出与实际标签之间的差异。常见的损失函数包括均方误差（Mean Squared Error，MSE）、交叉熵损失（Cross-Entropy Loss）等。较低的损失函数值表示模型的预测与真实标签之间的差异较小。
精确率（Precision）和召回率（Recall）：精确率和召回率是用于评价二分类问题的性能指标。精确率表示被正确预测为正类的样本数量占所有被预测为正类的样本数量的比例，而召回率表示被正确预测为正类的样本数量占真实正类样本数量的比例。
F1分数（F1 Score）：F1分数综合考虑了精确率和召回率，是一个综合评价指标。它是精确率和召回率的调和平均值，可以帮助综合评估模型的性能。
ROC曲线（Receiver Operating Characteristic Curve）和AUC（Area Under the Curve）：ROC曲线是以真阳性率（True Positive Rate）为纵轴，假阳性率（False Positive Rate）为横轴绘制的曲线。AUC表示ROC曲线下的面积，用于衡量模型在不同阈值下的分类性能。
交叉验证（Cross-Validation）：交叉验证是一种用于评估模型性能的技术。它将数据集分成多个子集，每次使用其中一个子集作为验证集，其余子集作为训练集，多次重复训练和验证，计算模型在不同子集上的性能指标的平均值。
超参数调优（Hyperparameter Tuning）：深度学习模型通常有许多超参数，例如学习率、批量大小、正则化参数等。通过尝试不同的超参数组合，并使用评估指标来比较它们的性能，可以找到最佳的超参数配置。

1.3.多分类器训练效果示例

kappa一致性评价

链接

p0被称为观测精确性或一致性单元的比例；pc被称为偶然性一致或期望的偶然一致的单元的比例。kappa计算结果为-1到1，但通常kappa是落在 0到1 间，可分为五组来表示不同级别的一致性：0.0到0.20极低的一致性(slight)、0.21到0.40一般的一致性(fair)、0.41到0.60 中等的一致性(moderate)、0.61到0.80 高度的一致性(substantial)和0.81到1几乎完全一致(almost perfect)。

例子：

混淆矩阵
k即kappa值，为0.8228，说明一致性良好

2.训练数据评价指标

目标类别分布是指训练数据中不同目标类别的比例。均衡的目标类别分布可以促进模型的泛化能力，使其能够有效地检测各种目标。不均衡的目标类别分布可能会导致模型对某些类别目标的检测精度较低。