机器学习—选择拆分信息增益

构建决策树时,我们需要决定在节点上拆分什么特性,将根据什么特征选择减少熵,最大减少熵或减少杂质,或在决策树中最大化纯度,学习熵的减少称为信息增益,因此,选择在决策树中的每一个节点上使用什么特性进行拆分。

如何选择信息增益?

在决策树的根节点上,建立识别猫和不识别猫的能力,如果我们使用根节点的耳朵形状特征,这就是我们会得到的五个左边例子和五个右边例子,在左边我们有四只猫,所以P1=4/5=0.8,在右边,只有一只猫,P1=1/5=0.2,如果将熵公式应用于数据的左侧子集和右侧子集,将会发现左边的杂质程度H(0.8)=0.72,在右边H(0.2)=0.72,这就是左右分支的熵,这是在耳朵形状特征上分开。如果在脸型上进行分类,然后圆脸的数据有七个,其中有四只猫,所以P1=4/7=0.57,右边1/3是猫,P1=0.33,所以H(0.57)=0.99,H(0.33)=0.92,所以左右两侧的杂质程度似乎要高得多。最后,在根节点上使用第三个可能的特性选择,胡须的特征,在这种情况下,根据胡须是否存在来分类,左边的P1=3/4=0.75,右边的P1=2/6=0.33,熵值如下H(0.75)=0.81,H(0.33)=0.92,所以在根节点使用的特性的这三个选项,哪一种更有效,事实证明,与其看这些熵数并将它们进行比较,不如对它们进行加权平均是有用的。

有一个节点,里面有很多例子,熵很高,这会很糟糕,因为熵是杂质的度量 ,如果你有一个非常大和不纯净的数据集与有几个例子和一个非常不纯净的数据集相比,所以关键的决定是这三种可能的特征选择,在根节点中使用,我们想使用哪一个与这些分类中每一个相关联的是两个数字,左边分支上的熵和右边分支上的熵,为了从这些中挑选,我们可以把两个数字组合成一个数字,所以,我们可以只做这三个选择,把这两个数字组合起来的方法是用加权平均数,因为在左分支和右分支中,低熵是非常重要的,也取决于有多少例子进入了左右分支,因为如果有很多例子进入了左分支,更重要的是要确保熵值低,在本例中,十个例子有五个例子去了左分支,所以我们可以计算加权平均数(5/10H(0.8)+5/10H(0.2)),中间和右边例子同上,我们选择拆分的方法是通过计算这三个数字哪个最低,得出哪个杂质最少,纯度最高,因为这给了我们平均加权熵最低的左右分支。

在构建决策树的过程中,我们实际上要对这些公式再做一个修改,与其计算加权平均熵,我们要计算熵的减少,所以,如果我们去根节点,在根节点上,已经从所有十个示例开始,有五只猫和五只狗,所以在根节点,我们得到P1=5/10=0.5,所以根节点的熵值H(0.5)=1,这是最大的纯度,因为是五只猫和五只狗,所以我们实际上要用来选择分类的公式不是左右分支的加权熵,取而代之的是根节点的熵,计算得到三个数字:0.28、0.03、0.12,这些被称为信息增益 。他测量的是你在树上得到的熵的减少,由分类产生的,因为熵原本是在根节点通过分类,最终得到的熵值较低,这两个值之间的差异是熵的减少,在耳朵形状分类的情况下,信息增益为0.28.

为什么要计算信息增益?

事实证明,决定何时停止的标准之一,如果熵的减少量太小在这种情况下,你可以决定你只是不必要的增加了树的大小,冒着过度拥挤的风险,决定不再费心,如果熵的减少在阈值以下太小,在这个特殊的例子中,在耳朵形状上的分类导致熵的最大减少,所以我们会选择在根节点的耳朵形状特征上分类。

以耳朵特征为例,定义,左分支为P1left=左边子集中具有正标签的示例的分数,有四只猫所以=4/5,把W定义为例子的分数,在所有到左边分支的根节点的例子,=5/10,类似的,右分支定义为P1right,作为正例的分数,只有一个是猫,即为1/5,同样Wriget=5/10,P1root=0.5,所以公式如下所示,所以有了熵的定义,可以计算与选择任何特定特性相关联的信息增益,在节点上拆分,然后在所有可能的功能中,可以选择分类,然后选择一个给你最高的信息增益,这将提高数据子集的纯度。在决策树的左右分支上,这将导致一个特性的分类,增加了数据子集的纯度。

相关推荐
南极星1005几秒前
视觉项目(k230+opencv+yolo)--云台实时追踪项目
人工智能·opencv·yolo
放下华子我只抽RuiKe52 分钟前
AI大模型开发-实战精讲:从零构建 RFM 会员价值模型(进阶挑战版)
人工智能·深度学习·算法·机器学习·数据挖掘·数据分析·聚类
新科技事物12 分钟前
AI编曲软件帮原创音乐人,用清唱歌词的音频快速做出专业的歌曲编曲伴奏
人工智能·音视频
程序员鱼皮21 分钟前
OpenClaw接入飞书保姆级教程,几分钟搞定手机养龙虾!
前端·人工智能·后端
青春不败 177-3266-052024 分钟前
最新AI-Python自然科学领域机器学习与深度学习技术——随机森林、XGBoost、CNN、LSTM、Transformer,从数据处理到时空建模等
人工智能·深度学习·机器学习·transformer·自然科学随机森林
yhdata33 分钟前
精准锚定2032!全自动移液机器人市场规模预计突破97.8亿元
人工智能·机器人
人工智能AI技术37 分钟前
深圳千人排队装龙虾太蠢?用C#写个自动化部署脚本,5分钟静默养虾不香吗
人工智能
新科技事物39 分钟前
AI编曲软件提升出歌效率,原创音乐人凭清唱歌词的音频快速作编曲伴奏成歌
人工智能·音视频
小陈phd1 小时前
多模态大模型学习笔记(十三)——transformer学习之位置编码
人工智能·笔记·transformer
ghie90901 小时前
基于MATLAB的A*算法避障路径规划实现
人工智能·算法·matlab