决策树--分类决策树

1、介绍

① 定义

分类决策树通过树形结构来模拟决策过程,决策树由结点和有向边组成。结点有两种类型:内部结

点和叶结点。内部结点表示一个特征或属性叶子节点****表示一个类

② 生成过程

用决策树分类,++从根结点开始,对样本的某一特征进行测试,根据测试结果,将样本分配到其他子++

++结点;这时,每一个子结点对应着该特征的一个取值,如此递归地对样本进行分配,直至达到叶结++

++点。最后将实例分到叶结点的类中++。

③ 示意图

2、特征选择--信息增益或信息增益比

(1)信息增益

① 熵的定义

信息增益是由熵构建而成,熵起源于热力学,后来由香农引用到信息论中,表示的是**「随机变量的**

不确定性」,不确定性越大,代表着熵越大。

由于熵和随机变量的分布有关,所以我们就可以写成:

​​​​​​​​那么什么时候的熵最大呢? 结论是:随机变量的取值等概率分布时,相应的熵最大。

② 信息增益算法

​可以看出,信息增益就是经验熵和经验条件熵的差值,他代表的是指:得知特征A而使类 Y的信息

的不确定性减少的程度。

后者越小,说明对应的不确定性最小,意味着如果选择特征 A 为最优特征时,对于分的类是最为

确定的,对应的就希望这个信息增益是最大的。

③ 例题:对于上述表所给的训练数据集,根据信息增益准则选择最优特征。

④ 缺点:如果不同特征内的分类个数不同,那么取值个数较多的特征计算出的信息增益会更大。因此,信息增益会更倾向于取值较多的特征。

(2)信息增益比

使用信息增益来作为划分训练数据集的特征,存在偏向于选择取值较多的特征的问题。使用信息增

益比可以对这一问题进行校正,这是特征选择的另一准则。

相关推荐
Themberfue3 分钟前
基础算法之双指针--Java实现(下)--LeetCode题解:有效三角形的个数-查找总价格为目标值的两个商品-三数之和-四数之和
java·开发语言·学习·算法·leetcode·双指针
陈序缘28 分钟前
LeetCode讲解篇之322. 零钱兑换
算法·leetcode·职场和发展
FHYAAAX28 分钟前
【机器学习】知识总结1(人工智能、机器学习、深度学习、贝叶斯、回归分析)
人工智能·深度学习·机器学习·贝叶斯·回归分析
-$_$-30 分钟前
【LeetCode HOT 100】详细题解之二叉树篇
数据结构·算法·leetcode
大白飞飞32 分钟前
力扣203.移除链表元素
算法·leetcode·链表
学无止境\n1 小时前
[C语言]指针和数组
c语言·数据结构·算法
黄俊懿1 小时前
【深入理解SpringCloud微服务】手写实现各种限流算法——固定时间窗、滑动时间窗、令牌桶算法、漏桶算法
java·后端·算法·spring cloud·微服务·架构
新缸中之脑1 小时前
Llama 3.2 安卓手机安装教程
前端·人工智能·算法
人工智障调包侠1 小时前
基于深度学习多层感知机进行手机价格预测
人工智能·python·深度学习·机器学习·数据分析
夜雨翦春韭1 小时前
【代码随想录Day29】贪心算法Part03
java·数据结构·算法·leetcode·贪心算法