【机器学习300问】31、不平衡数据集如何进行机器学习?

一、什么是不平衡的数据集?

(1)认识不平衡数据

假如你正在管理一个果园,这个果园里主要有两种水果------苹果和樱桃。如果苹果树有1000棵,而樱桃树只有10棵,那么在收集果园的果实时,你会得到大量的苹果样本,但樱桃样本却极其稀少。这种情况就被称为"不平衡数据集"。

(2)会导致什么问题?

不平衡数据集会使得模型在训练对多数类偏见,进而忽视少数类的识别。降低了模型在实际应用中的有效性和准确性。

举例来说明一下它可能造成的问题:

在信用卡欺诈检测中,欺诈交易的实例可能仅占总交易的一小部分,而非欺诈交易却占了大多数。这种不平衡会导致机器学习模型倾向于更频繁地预测多数类,因为这样可以最大化准确率。但这通常会忽视了少数类的预测,而在很多情况下少数类的预测更加重要,如在欺诈检测、医疗诊断等领域。

二、如何处理不平衡数据集上的训练问题?

(1)让数据集变平衡

  • 过采样(Over-sampling) :对于少数类,我们可以复制一些样本或者生成新的样本,以增加其在数据集中的比例,使之与多数类接近或相等,从而达到平衡。【让少的变多】

比如,在果园的例子中,我们可以通过某种方式"克隆"樱桃树,使樱桃的数量与苹果相当,这样我们在评估果园总体情况时就不会忽视樱桃的存在。

  • 欠采样(Under-sampling) :减少多数类的样本数量,使其与少数类相匹配。但是需要注意,过度的欠采样可能导致多数类的信息丢失,影响模型的泛化能力。【让多的变少】

同理于果园,如果我们选择去掉一部分苹果树,使得苹果和樱桃的数量相同,这样在分析时就会给予樱桃更多的关注,但同时也可能因为苹果树的减少而丧失部分关于苹果的重要信息。

(2)用精确率和召回率指标评估模型

关于精确率和召回率的定义,我在之前的文章中写过,还有其他的评价指标的介绍。大家如果忘了精确率和召回率是什么的,可以跳转链接去看看哦!

【机器学习300问】25、常见的模型评估指标有哪些?http://t.csdnimg.cn/crO6q

  • 精确率(Precision) :预测为正例中真正为正例的比例。在果园的例子中,如果我们试图找出所有的樱桃树,精确率就是指我们标记为"樱桃"的果树中,有多少才是真正樱桃树的比例。精确率是衡量模型在预测正类时的准确性指标。【预测正类有多准】

  • 召回率(Recall) :所有正例中被正确预测出来的比例。在果园的例子中,如果我们试图找出所有的樱桃树,召回率就是果园中所有真实的樱桃树中有多少被我们成功找了出来。召回率是衡量模型找出正样本的能力。【预测正类有多全】

(3)用精确率和召回率指标评估模型的好处在哪儿呢?

精确率和召回率作为互补性的评估指标,能够帮助我们从多个维度来评判模型的性能,尤其是在面对类别不平衡问题时,它们为我们提供了更加详尽、深入的模型评估视角。

  • 在处理不平衡数据集时,准确率可能不是一个好的指标,因为它可以通过主要预测多数类来轻易地变高。而精确率和召回率可以提供关于模型对少数类的预测能力更多的信息。
  • 在很多情境下,我们需要在预测的准确性(不预测错)和完整性(不漏预测)之间做平衡。精确率和召回率帮助我们理解模型在这两个方面的表现如何,以便做出调整。
相关推荐
QC777LX几秒前
赋能智慧出行:传统旅游顾问进阶AI行程规划师的系统化培训与职业认证
人工智能·旅游
碳基硅坊16 分钟前
在昇腾 910B2 上部署 Qwen3.5-35B-A3B
人工智能
哥布林学者29 分钟前
深度学习进阶(五)Vision Transformer
机器学习·ai
冬奇Lab1 小时前
一天一个开源项目(第68篇):DeerFlow - 字节跳动出品的深度研究与超级智能体框架
人工智能·开源·资讯
NineData1 小时前
NineData V5.0 产品发布会:让 AI 成为数据管理的驱动力,4月16日!
数据库·人工智能·ai编程
罗西的思考1 小时前
【OpenClaw】通过 Nanobot 源码学习架构---(5)Context
人工智能·算法·机器学习
2301_764441332 小时前
claw-code:基于Claude Code架构的clean-room重写开源项目
人工智能·架构·开源
模拟器连接器曾工2 小时前
CCD定位与图像辨别的智能视觉检测系统
人工智能·计算机视觉·视觉检测·智能视觉检测系统
云栖梦泽3 小时前
AI安全合规与治理:行业发展趋势与职业展望
大数据·人工智能·安全
小陈工3 小时前
2026年4月2日技术资讯洞察:数据库融合革命、端侧AI突破与脑机接口产业化
开发语言·前端·数据库·人工智能·python·安全