决策树学习笔记

一、衡量标准------熵

随机变量不确定性的度量

信息增益:表示特征X使得类Y的不确定性减少的程度。

二、数据集

14天的打球情况

特征:4种环境变化(天气、温度等等)

在上述数据种,14天中打球的天数为9天;不打球的天数为5天,计算熵值为

(1)选择outlook作为根节点

计算加权

gain(outlook) = 0.940-0.693 = 0.247

类似计算:

gain(temp) = 0.029

gain(humidity) = 0.152

gain(windy) = 0.048

outlook的信息增益最大,因此选择outlook作为根节点

以此类推,确定每一个子树的根节点

三、决策树算法

ID3: 信息增益

C4.5: 信息增益率

CART: GINI系数

四、剪枝

决策树过拟合风险很大,理论上可以将数据完全分开,即一个叶子节点一个数据,因此需要对决策数进行剪枝操作。

剪枝策略:预剪枝和后剪枝

预剪枝:边建立决策树边进行剪枝操作

后剪枝:当建立完决策树后来进行剪枝操作

相关推荐
宋一诺3326 分钟前
机器学习—高级优化方法
人工智能·机器学习
龙的爹233339 分钟前
论文 | The Capacity for Moral Self-Correction in LargeLanguage Models
人工智能·深度学习·机器学习·语言模型·自然语言处理·prompt
笨小古1 小时前
路径规划——RRT-Connect算法
算法·路径规划·导航
<但凡.1 小时前
编程之路,从0开始:知识补充篇
c语言·数据结构·算法
f狐0狸x1 小时前
【数据结构副本篇】顺序表 链表OJ
c语言·数据结构·算法·链表
paopaokaka_luck2 小时前
基于Spring Boot+Vue的多媒体素材管理系统的设计与实现
java·数据库·vue.js·spring boot·后端·算法
phoenix@Capricornus2 小时前
矩阵的对角化&特征值分解
图像处理·线性代数·机器学习·矩阵
视觉小萌新2 小时前
VScode+opencv——关于opencv多张图片拼接成一张图片的算法
vscode·opencv·算法
编程、小哥哥2 小时前
设计模式之组合模式(营销差异化人群发券,决策树引擎搭建场景)
决策树·设计模式·组合模式
Chef_Chen2 小时前
从0开始学习机器学习--Day25--SVM作业
学习·机器学习·支持向量机