决策树学习笔记

一、衡量标准------熵

随机变量不确定性的度量

信息增益:表示特征X使得类Y的不确定性减少的程度。

二、数据集

14天的打球情况

特征:4种环境变化(天气、温度等等)

在上述数据种,14天中打球的天数为9天;不打球的天数为5天,计算熵值为

(1)选择outlook作为根节点

计算加权

gain(outlook) = 0.940-0.693 = 0.247

类似计算:

gain(temp) = 0.029

gain(humidity) = 0.152

gain(windy) = 0.048

outlook的信息增益最大,因此选择outlook作为根节点

以此类推,确定每一个子树的根节点

三、决策树算法

ID3: 信息增益

C4.5: 信息增益率

CART: GINI系数

四、剪枝

决策树过拟合风险很大,理论上可以将数据完全分开,即一个叶子节点一个数据,因此需要对决策数进行剪枝操作。

剪枝策略:预剪枝和后剪枝

预剪枝:边建立决策树边进行剪枝操作

后剪枝:当建立完决策树后来进行剪枝操作

相关推荐
ゞ 正在缓冲99%…几秒前
leetcode152.乘积最大子数组
数据结构·算法·leetcode
闯闯爱编程41 分钟前
数组与特殊压缩矩阵
数据结构·算法·矩阵
秋风战士1 小时前
通信算法之255:无人机频谱探测设备技术详解
算法·无人机
databook1 小时前
线性模型与多分类问题:简单高效的力量
python·机器学习·scikit-learn
laimaxgg2 小时前
数据结构B树的实现
开发语言·数据结构·c++·b树·算法
mit6.8242 小时前
[Lc6_记忆化搜索] 最长递增子序列 | 矩阵中的最长递增路径
c++·算法·leetcode
ylfhpy3 小时前
Java面试黄金宝典30
java·数据库·算法·面试·职场和发展
明.2443 小时前
DFS 洛谷P1123 取数游戏
算法·深度优先
简简单单做算法5 小时前
基于mediapipe深度学习和限定半径最近邻分类树算法的人体摔倒检测系统python源码
人工智能·python·深度学习·算法·分类·mediapipe·限定半径最近邻分类树
Tisfy6 小时前
LeetCode 2360.图中的最长环:一步一打卡(不撞南墙不回头) - 通过故事讲道理
算法·leetcode··题解