基础指标
评价指标的计算方法在两种方法中有一些差异,但它们都提供了对模型性能的有效度量,用于评估模型在多分类任务中的表现。具体选择哪种方法取决于任务需求、数据特点以及模型训练的策略。
对于直接对多个类别进行预测的多分类模型,准确率和混淆矩阵评价模型性能常用的指标,但具体选择也需要根据任务需求和数据特点进行综合考虑。
多分类准确率(Multi-Class Accuracy):计算模型在所有类别上预测正确的样本比例。
混淆矩阵(Confusion Matrix):展示模型在每个类别上的表现,计算各个类别的精确率、召回率、F1 分数等评价指标。
对于转换为二分类的多分类模型,我们可以沿用常用的二分类模型的评价指标,包括准确率(Accuracy)、混淆矩阵(Confusion Matrix)、精确率(Precision)、召回率(Recall)、F1 分数(F1-Score)等,此处不展开介绍。

综合指标
综合指标能够在全局范围内评估多分类模型的性能。在以上的方法中,我们都可以考虑宏平均、微平均和加权平均这几种方法。宏平均适用于各类别重要性相等的情况,微平均在样本不平衡时表现更稳健,而加权平均考虑了不同类别样本数量的差异。