决策树学习笔记

一、衡量标准------熵

随机变量不确定性的度量

信息增益:表示特征X使得类Y的不确定性减少的程度。

二、数据集

14天的打球情况

特征:4种环境变化(天气、温度等等)

在上述数据种,14天中打球的天数为9天;不打球的天数为5天,计算熵值为

(1)选择outlook作为根节点

计算加权

gain(outlook) = 0.940-0.693 = 0.247

类似计算:

gain(temp) = 0.029

gain(humidity) = 0.152

gain(windy) = 0.048

outlook的信息增益最大,因此选择outlook作为根节点

以此类推,确定每一个子树的根节点

三、决策树算法

ID3: 信息增益

C4.5: 信息增益率

CART: GINI系数

四、剪枝

决策树过拟合风险很大,理论上可以将数据完全分开,即一个叶子节点一个数据,因此需要对决策数进行剪枝操作。

剪枝策略:预剪枝和后剪枝

预剪枝:边建立决策树边进行剪枝操作

后剪枝:当建立完决策树后来进行剪枝操作

相关推荐
舔甜歌姬的EGUMI LEGACY3 分钟前
【算法day28】解数独——编写一个程序,通过填充空格来解决数独问题
算法
welkin16 分钟前
KMP 个人理解
前端·算法
半桔22 分钟前
红黑树剖析
c语言·开发语言·数据结构·c++·后端·算法
eason_fan31 分钟前
前端面试手撕代码(字节)
前端·算法·面试
今天_也很困38 分钟前
牛客2025年愚人节比赛
c++·算法
Joe_Wang540 分钟前
[图论]拓扑排序
数据结构·c++·算法·leetcode·图论·拓扑排序
2401_858286111 小时前
CD21.【C++ Dev】类和对象(12) 流插入运算符的重载
开发语言·c++·算法·类和对象·运算符重载
梭七y1 小时前
【力扣hot100题】(033)合并K个升序链表
算法·leetcode·链表
月亮被咬碎成星星1 小时前
LeetCode[383]赎金信
算法·leetcode