【机器学习300问】31、不平衡数据集如何进行机器学习？

一、什么是不平衡的数据集？

假如你正在管理一个果园，这个果园里主要有两种水果------苹果和樱桃。如果苹果树有1000棵，而樱桃树只有10棵，那么在收集果园的果实时，你会得到大量的苹果样本，但樱桃样本却极其稀少。这种情况就被称为"不平衡数据集"。

不平衡数据集会使得模型在训练对多数类偏见，进而忽视少数类的识别。降低了模型在实际应用中的有效性和准确性。

举例来说明一下它可能造成的问题：

在信用卡欺诈检测中，欺诈交易的实例可能仅占总交易的一小部分，而非欺诈交易却占了大多数。这种不平衡会导致机器学习模型倾向于更频繁地预测多数类，因为这样可以最大化准确率。但这通常会忽视了少数类的预测，而在很多情况下少数类的预测更加重要，如在欺诈检测、医疗诊断等领域。

过采样（Over-sampling） ：对于少数类，我们可以复制一些样本或者生成新的样本，以增加其在数据集中的比例，使之与多数类接近或相等，从而达到平衡。【让少的变多】

比如，在果园的例子中，我们可以通过某种方式"克隆"樱桃树，使樱桃的数量与苹果相当，这样我们在评估果园总体情况时就不会忽视樱桃的存在。

欠采样（Under-sampling） ：减少多数类的样本数量，使其与少数类相匹配。但是需要注意，过度的欠采样可能导致多数类的信息丢失，影响模型的泛化能力。【让多的变少】

同理于果园，如果我们选择去掉一部分苹果树，使得苹果和樱桃的数量相同，这样在分析时就会给予樱桃更多的关注，但同时也可能因为苹果树的减少而丧失部分关于苹果的重要信息。

关于精确率和召回率的定义，我在之前的文章中写过，还有其他的评价指标的介绍。大家如果忘了精确率和召回率是什么的，可以跳转链接去看看哦！

精确率（Precision） ：预测为正例中真正为正例的比例。在果园的例子中，如果我们试图找出所有的樱桃树，精确率就是指我们标记为"樱桃"的果树中，有多少才是真正樱桃树的比例。精确率是衡量模型在预测正类时的准确性指标。【预测正类有多准】
召回率（Recall） ：所有正例中被正确预测出来的比例。在果园的例子中，如果我们试图找出所有的樱桃树，召回率就是果园中所有真实的樱桃树中有多少被我们成功找了出来。召回率是衡量模型找出正样本的能力。【预测正类有多全】

精确率和召回率作为互补性的评估指标，能够帮助我们从多个维度来评判模型的性能，尤其是在面对类别不平衡问题时，它们为我们提供了更加详尽、深入的模型评估视角。