【机器学习300问】31、不平衡数据集如何进行机器学习?

一、什么是不平衡的数据集?

(1)认识不平衡数据

假如你正在管理一个果园,这个果园里主要有两种水果------苹果和樱桃。如果苹果树有1000棵,而樱桃树只有10棵,那么在收集果园的果实时,你会得到大量的苹果样本,但樱桃样本却极其稀少。这种情况就被称为"不平衡数据集"。

(2)会导致什么问题?

不平衡数据集会使得模型在训练对多数类偏见,进而忽视少数类的识别。降低了模型在实际应用中的有效性和准确性。

举例来说明一下它可能造成的问题:

在信用卡欺诈检测中,欺诈交易的实例可能仅占总交易的一小部分,而非欺诈交易却占了大多数。这种不平衡会导致机器学习模型倾向于更频繁地预测多数类,因为这样可以最大化准确率。但这通常会忽视了少数类的预测,而在很多情况下少数类的预测更加重要,如在欺诈检测、医疗诊断等领域。

二、如何处理不平衡数据集上的训练问题?

(1)让数据集变平衡

  • 过采样(Over-sampling) :对于少数类,我们可以复制一些样本或者生成新的样本,以增加其在数据集中的比例,使之与多数类接近或相等,从而达到平衡。【让少的变多】

比如,在果园的例子中,我们可以通过某种方式"克隆"樱桃树,使樱桃的数量与苹果相当,这样我们在评估果园总体情况时就不会忽视樱桃的存在。

  • 欠采样(Under-sampling) :减少多数类的样本数量,使其与少数类相匹配。但是需要注意,过度的欠采样可能导致多数类的信息丢失,影响模型的泛化能力。【让多的变少】

同理于果园,如果我们选择去掉一部分苹果树,使得苹果和樱桃的数量相同,这样在分析时就会给予樱桃更多的关注,但同时也可能因为苹果树的减少而丧失部分关于苹果的重要信息。

(2)用精确率和召回率指标评估模型

关于精确率和召回率的定义,我在之前的文章中写过,还有其他的评价指标的介绍。大家如果忘了精确率和召回率是什么的,可以跳转链接去看看哦!

【机器学习300问】25、常见的模型评估指标有哪些?http://t.csdnimg.cn/crO6q

  • 精确率(Precision) :预测为正例中真正为正例的比例。在果园的例子中,如果我们试图找出所有的樱桃树,精确率就是指我们标记为"樱桃"的果树中,有多少才是真正樱桃树的比例。精确率是衡量模型在预测正类时的准确性指标。【预测正类有多准】

  • 召回率(Recall) :所有正例中被正确预测出来的比例。在果园的例子中,如果我们试图找出所有的樱桃树,召回率就是果园中所有真实的樱桃树中有多少被我们成功找了出来。召回率是衡量模型找出正样本的能力。【预测正类有多全】

(3)用精确率和召回率指标评估模型的好处在哪儿呢?

精确率和召回率作为互补性的评估指标,能够帮助我们从多个维度来评判模型的性能,尤其是在面对类别不平衡问题时,它们为我们提供了更加详尽、深入的模型评估视角。

  • 在处理不平衡数据集时,准确率可能不是一个好的指标,因为它可以通过主要预测多数类来轻易地变高。而精确率和召回率可以提供关于模型对少数类的预测能力更多的信息。
  • 在很多情境下,我们需要在预测的准确性(不预测错)和完整性(不漏预测)之间做平衡。精确率和召回率帮助我们理解模型在这两个方面的表现如何,以便做出调整。
相关推荐
说私域8 分钟前
基于开源AI智能名片链动2+1模式的S2B2C商城小程序:门店私域流量与视频号直播融合的生态创新研究
人工智能·小程序·开源
Ronin-Lotus11 分钟前
深度学习篇---Yolov系列
人工智能·深度学习
静心问道39 分钟前
GoT:超越思维链:语言模型中的有效思维图推理
人工智能·计算机视觉·语言模型
aneasystone本尊1 小时前
学习 Claude Code 的工具使用(三)
人工智能
szxinmai主板定制专家1 小时前
【精密测量】基于ARM+FPGA的多路光栅信号采集方案
服务器·arm开发·人工智能·嵌入式硬件·fpga开发
T__TIII1 小时前
Dify 自定义插件
人工智能·github
快起来别睡了1 小时前
LangChain 介绍及使用指南:从“会聊天”到“能干活”的 AI 应用开发工具
人工智能
AI数据皮皮侠2 小时前
中国区域10m空间分辨率楼高数据集(全国/分省/分市/免费数据)
大数据·人工智能·机器学习·分类·业界资讯
静心问道2 小时前
大语言模型能够理解并可以通过情绪刺激进行增强
人工智能·语言模型·大模型
运器1232 小时前
【一起来学AI大模型】算法核心:数组/哈希表/树/排序/动态规划(LeetCode精练)
开发语言·人工智能·python·算法·ai·散列表·ai编程