决策树学习笔记

一、衡量标准------熵

随机变量不确定性的度量

信息增益:表示特征X使得类Y的不确定性减少的程度。

二、数据集

14天的打球情况

特征:4种环境变化(天气、温度等等)

在上述数据种,14天中打球的天数为9天;不打球的天数为5天,计算熵值为

(1)选择outlook作为根节点

计算加权

gain(outlook) = 0.940-0.693 = 0.247

类似计算:

gain(temp) = 0.029

gain(humidity) = 0.152

gain(windy) = 0.048

outlook的信息增益最大,因此选择outlook作为根节点

以此类推,确定每一个子树的根节点

三、决策树算法

ID3: 信息增益

C4.5: 信息增益率

CART: GINI系数

四、剪枝

决策树过拟合风险很大,理论上可以将数据完全分开,即一个叶子节点一个数据,因此需要对决策数进行剪枝操作。

剪枝策略:预剪枝和后剪枝

预剪枝:边建立决策树边进行剪枝操作

后剪枝:当建立完决策树后来进行剪枝操作

相关推荐
风筝在晴天搁浅2 小时前
代码随想录 718.最长重复子数组
算法
kyle~2 小时前
算法---回溯算法
算法
star _chen2 小时前
C++实现完美洗牌算法
开发语言·c++·算法
roman_日积跬步-终至千里2 小时前
【模式识别与机器学习】机器学习练习题集 - 答案与解析
人工智能·机器学习
hzxxxxxxx3 小时前
1234567
算法
ekprada3 小时前
DAY 30 模块和库的导入
机器学习
白日做梦Q3 小时前
深度学习与机器学习的3个关键区别
人工智能·深度学习·机器学习
Sylvia-girl3 小时前
数据结构之复杂度
数据结构·算法
CQ_YM3 小时前
数据结构之队列
c语言·数据结构·算法·
VekiSon3 小时前
数据结构与算法——树和哈希表
数据结构·算法