DataWhale-吃瓜教程学习笔记 (五)

学习视频第4章-决策树_哔哩哔哩_bilibili
西瓜书对应章节: 第四章 4.1;4.2


文章目录

  • 决策树算法原理
        • [- 逻辑角度](#- 逻辑角度)
        • [- 几何角度](#- 几何角度)
  • [ID3 决策树](#ID3 决策树)
        • [- 自信息](#- 自信息)
        • [- 信息熵 (自信息的期望)](#- 信息熵 (自信息的期望))
        • [- 条件熵 ( Y 的信息熵关于概率分布 X 的期望)](#- 条件熵 ( Y 的信息熵关于概率分布 X 的期望))
        • [- 信息增益](#- 信息增益)
        • [- ID3 决策树](#- ID3 决策树)
        • [- 问题](#- 问题)
  • C4.5决策树
        • [- 增益率](#- 增益率)
          • [-- 属性固有值](#-- 属性固有值)
        • [- 缺点](#- 缺点)
  • [CART 决策树](#CART 决策树)
        • [- 基尼值](#- 基尼值)
        • [- 属性的基尼指数](#- 属性的基尼指数)
        • [- CART 决策树的实际构造算法](#- CART 决策树的实际构造算法)

决策树算法原理

- 逻辑角度

if...else.. 语句的组合,不断的选择

- 几何角度

根据某种准则划分特征空间

最终目的:提高分类样本的纯度


ID3 决策树

- 自信息
- 信息熵 (自信息的期望)

其中 X 作为随机变量,假设可能有 a, b, c 3种可能的状态:

  • p(a|b|c)=1 是最确定的,信息熵最小
  • p(a) = p(b) = p© 时可能性相同, X是最不确定的,信息熵最大

将样本类别标记视作随机变量,各个类别在样本集合中的占比视作各类别取值的概率,此时信息熵的 不确定性 可以转化为 集合内样本的纯度

- 条件熵 ( Y 的信息熵关于概率分布 X 的期望)

在已知 X 后 Y 的不确定性

- 信息增益

已知属性特征 a 的取值后, y 的不确定减少的量

- ID3 决策树

以 信息增益 为准则选择划分属性的 决策树

- 问题

信息增益 可能对取值数目多的属性有偏好 (比如 编号)


C4.5决策树

- 增益率
-- 属性固有值

a 可能取值的个数 V 越多,则 通常其固有值 IV(a)越大

- 缺点

增益率可能对 取值数目少的属性有偏好

  • C45算法 并未完全使用 "增益率"替代 "信息增益"。采用启发式算法:先选出信息增益高出平均水平 的属性,然后从中选择增益率最高的。

CART 决策树

- 基尼值

从样本集合D中随机抽取两个样本,其类别标记不一致的概率

- 属性的基尼指数
- CART 决策树的实际构造算法

相关推荐
笑鸿的学习笔记1 小时前
虚幻引擎5-Unreal Engine笔记之`GameMode`、`关卡(Level)` 和 `关卡蓝图(Level Blueprint)`的关系
笔记·ue5·虚幻
m0_738206542 小时前
嵌入式学习的第二十二天-数据结构-栈+队列
数据结构·学习
向上的车轮8 小时前
MATLAB学习笔记(七):MATLAB建模城市的雨季防洪排污的问题
笔记·学习·matlab
躺着听Jay8 小时前
Oracle-相关笔记
数据库·笔记·oracle
田梓燊8 小时前
数学复习笔记 19
笔记·线性代数·机器学习
前端小崔8 小时前
从零开始学习three.js(18):一文详解three.js中的着色器Shader
前端·javascript·学习·3d·webgl·数据可视化·着色器
逼子格9 小时前
硬件工程师笔记——二极管Multisim电路仿真实验汇总
笔记·嵌入式硬件·硬件工程师·multisim·硬件工程师学习·电子器件·电路图
龙湾开发9 小时前
计算机图形学编程(使用OpenGL和C++)(第2版)学习笔记 10.增强表面细节(二)法线贴图
c++·笔记·学习·图形渲染·贴图
liang_202610 小时前
【HT周赛】T3.二维平面 题解(分块:矩形chkmax,求矩形和)
数据结构·笔记·学习·算法·平面·总结
虾球xz10 小时前
游戏引擎学习第290天:完成分离渲染
c++·人工智能·学习·游戏引擎