决策树学习笔记

一、衡量标准------熵

随机变量不确定性的度量

信息增益:表示特征X使得类Y的不确定性减少的程度。

二、数据集

14天的打球情况

特征:4种环境变化(天气、温度等等)

在上述数据种,14天中打球的天数为9天;不打球的天数为5天,计算熵值为

(1)选择outlook作为根节点

计算加权

gain(outlook) = 0.940-0.693 = 0.247

类似计算:

gain(temp) = 0.029

gain(humidity) = 0.152

gain(windy) = 0.048

outlook的信息增益最大,因此选择outlook作为根节点

以此类推,确定每一个子树的根节点

三、决策树算法

ID3: 信息增益

C4.5: 信息增益率

CART: GINI系数

四、剪枝

决策树过拟合风险很大,理论上可以将数据完全分开,即一个叶子节点一个数据,因此需要对决策数进行剪枝操作。

剪枝策略:预剪枝和后剪枝

预剪枝:边建立决策树边进行剪枝操作

后剪枝:当建立完决策树后来进行剪枝操作

相关推荐
Liudef0631 分钟前
后量子密码学(PQC)深度解析:算法原理、标准进展与软件开发行业的影响
算法·密码学·量子计算
OYpBNTQXi2 小时前
SEAL全同态加密CKKS方案入门详解
算法·机器学习·同态加密
Binary_ey2 小时前
光刻技术第22期 | 贝叶斯压缩感知光源优化的优化技术及对比分析
人工智能·深度学习·机器学习
蚂蚁数据AntData2 小时前
破解AI“机器味“困境:HeartBench评测实践详解
大数据·人工智能·算法·机器学习·语言模型·开源
ZC跨境爬虫2 小时前
Python异步IO详解:原理、应用场景与实战指南(高并发爬虫首选)
爬虫·python·算法·自动化
倦王3 小时前
力扣日刷47-补
python·算法·leetcode
沉鱼.443 小时前
第十三届题目
c语言·c++·算法
ZHOU_WUYI3 小时前
ppo算法简单实现
人工智能·pytorch·算法
无限进步_4 小时前
【C++】巧用静态变量与构造函数:一种非常规的求和实现
开发语言·c++·git·算法·leetcode·github·visual studio
小超超爱学习99374 小时前
大数乘法,超级简单模板
开发语言·c++·算法