【机器学习300问】31、不平衡数据集如何进行机器学习?

一、什么是不平衡的数据集?

(1)认识不平衡数据

假如你正在管理一个果园,这个果园里主要有两种水果------苹果和樱桃。如果苹果树有1000棵,而樱桃树只有10棵,那么在收集果园的果实时,你会得到大量的苹果样本,但樱桃样本却极其稀少。这种情况就被称为"不平衡数据集"。

(2)会导致什么问题?

不平衡数据集会使得模型在训练对多数类偏见,进而忽视少数类的识别。降低了模型在实际应用中的有效性和准确性。

举例来说明一下它可能造成的问题:

在信用卡欺诈检测中,欺诈交易的实例可能仅占总交易的一小部分,而非欺诈交易却占了大多数。这种不平衡会导致机器学习模型倾向于更频繁地预测多数类,因为这样可以最大化准确率。但这通常会忽视了少数类的预测,而在很多情况下少数类的预测更加重要,如在欺诈检测、医疗诊断等领域。

二、如何处理不平衡数据集上的训练问题?

(1)让数据集变平衡

  • 过采样(Over-sampling) :对于少数类,我们可以复制一些样本或者生成新的样本,以增加其在数据集中的比例,使之与多数类接近或相等,从而达到平衡。【让少的变多】

比如,在果园的例子中,我们可以通过某种方式"克隆"樱桃树,使樱桃的数量与苹果相当,这样我们在评估果园总体情况时就不会忽视樱桃的存在。

  • 欠采样(Under-sampling) :减少多数类的样本数量,使其与少数类相匹配。但是需要注意,过度的欠采样可能导致多数类的信息丢失,影响模型的泛化能力。【让多的变少】

同理于果园,如果我们选择去掉一部分苹果树,使得苹果和樱桃的数量相同,这样在分析时就会给予樱桃更多的关注,但同时也可能因为苹果树的减少而丧失部分关于苹果的重要信息。

(2)用精确率和召回率指标评估模型

关于精确率和召回率的定义,我在之前的文章中写过,还有其他的评价指标的介绍。大家如果忘了精确率和召回率是什么的,可以跳转链接去看看哦!

【机器学习300问】25、常见的模型评估指标有哪些?http://t.csdnimg.cn/crO6q

  • 精确率(Precision) :预测为正例中真正为正例的比例。在果园的例子中,如果我们试图找出所有的樱桃树,精确率就是指我们标记为"樱桃"的果树中,有多少才是真正樱桃树的比例。精确率是衡量模型在预测正类时的准确性指标。【预测正类有多准】

  • 召回率(Recall) :所有正例中被正确预测出来的比例。在果园的例子中,如果我们试图找出所有的樱桃树,召回率就是果园中所有真实的樱桃树中有多少被我们成功找了出来。召回率是衡量模型找出正样本的能力。【预测正类有多全】

(3)用精确率和召回率指标评估模型的好处在哪儿呢?

精确率和召回率作为互补性的评估指标,能够帮助我们从多个维度来评判模型的性能,尤其是在面对类别不平衡问题时,它们为我们提供了更加详尽、深入的模型评估视角。

  • 在处理不平衡数据集时,准确率可能不是一个好的指标,因为它可以通过主要预测多数类来轻易地变高。而精确率和召回率可以提供关于模型对少数类的预测能力更多的信息。
  • 在很多情境下,我们需要在预测的准确性(不预测错)和完整性(不漏预测)之间做平衡。精确率和召回率帮助我们理解模型在这两个方面的表现如何,以便做出调整。
相关推荐
2401_841495644 小时前
【计算机视觉】基于复杂环境下的车牌识别
人工智能·python·算法·计算机视觉·去噪·车牌识别·字符识别
倔强青铜三5 小时前
苦练Python第66天:文件操作终极武器!shutil模块完全指南
人工智能·python·面试
倔强青铜三5 小时前
苦练Python第65天:CPU密集型任务救星!多进程multiprocessing模块实战解析,攻破GIL限制!
人工智能·python·面试
强哥之神5 小时前
浅谈目前主流的LLM软件技术栈:Kubernetes + Ray + PyTorch + vLLM 的协同架构
人工智能·语言模型·自然语言处理·transformer·openai·ray
zskj_qcxjqr5 小时前
七彩喜艾灸机器人:当千年中医智慧遇上现代科技
大数据·人工智能·科技·机器人
Wnq100725 小时前
如何在移动 的巡检机器人上,实现管道跑冒滴漏的视觉识别
数码相机·opencv·机器学习·计算机视觉·目标跟踪·自动驾驶
Zack_Liu6 小时前
深度学习基础模块
人工智能·深度学习
zy_destiny6 小时前
【工业场景】用YOLOv8实现抽烟识别
人工智能·python·算法·yolo·机器学习·计算机视觉·目标跟踪
狠活科技7 小时前
免登录!免安装ClI,Claude Code官方插件接入API使用教程
人工智能·vscode·ai编程
闲看云起7 小时前
Bert:从“读不懂上下文”的AI,到真正理解语言
论文阅读·人工智能·深度学习·语言模型·自然语言处理·bert