机器学习评价指标之综合指标的关系

不知名的老吴2026-05-23 8:38

宏平均考虑每个类别的个别表现，并对它们的评价指标（比如准确率、召回率等）进行平均。每个类别被视为同等重要，无论类别的大小或样本数量。

微平均则关注整体表现，它将所有类别的预测结果合并起来，计算一个总的评价指标。在微平均中，每个样本的预测都被视为同样重要，不管它属于哪个类别。

假设我们有一个三类分类任务：A、B 和 C。如果类别 A 有很多样本，而类别 B 和 C 的样本很少，在宏平均中，由于每个类别的指标会平均起来，因此对于这种样本不平衡的情况相对较稳健，不会因为类别 A 的样本数量多而对其产生特别大的影响。

而在微平均中，每个样本都被视为同等重要，不论它属于哪个类别。因此，样本多的类别会对整体性能产生更大的影响，从而导致微平均对于样本数量较多的类别更为敏感。也就是说，类别 A 会在微平均中对性能评估产生较大影响，有可能会掩盖其他类别的表现。

在样本不平衡的情况下，引入加权平均会赋予样本多的类别更大的权重，从而在评价指标中更好地体现这些类别的影响。虽然加权平均考虑了每个类别的贡献，但是如果样本非常不平衡的情况下，加权平均反而因为强调了某个类别而加剧样本不平衡问题。

以上介绍的评价指标的选择和使用不依赖于具体的训练策略，它们都可以帮助我们了解整体性能以及各个类别的表现。无论是直接训练多分类模型还是使用多个二分类模型来辅助进行分类，我们都可以使用宏平均、微平均和加权平均来计算评价指标，以得到全局性能的衡量。