DataWhale-吃瓜教程学习笔记 (五）

摸鱼仙人~2024-07-02 19:35

学习视频 ：第4章-决策树_哔哩哔哩_bilibili
西瓜书对应章节：第四章 4.1；4.2

文章目录

决策树算法原理
- - - [- 逻辑角度](#- 逻辑角度)
    - [- 几何角度](#- 几何角度)
[ID3 决策树](#ID3 决策树)
- - - [- 自信息](#- 自信息)
    - [- 信息熵（自信息的期望）](#- 信息熵（自信息的期望）)
    - [- 条件熵（ Y 的信息熵关于概率分布 X 的期望）](#- 条件熵（ Y 的信息熵关于概率分布 X 的期望）)
    - [- 信息增益](#- 信息增益)
    - [- ID3 决策树](#- ID3 决策树)
    - [- 问题](#- 问题)
C4.5决策树
- - - [- 增益率](#- 增益率)
    - - [-- 属性固有值](#-- 属性固有值)
    - [- 缺点](#- 缺点)
[CART 决策树](#CART 决策树)
- - - [- 基尼值](#- 基尼值)
    - [- 属性的基尼指数](#- 属性的基尼指数)
    - [- CART 决策树的实际构造算法](#- CART 决策树的实际构造算法)

决策树算法原理

- 逻辑角度

if...else.. 语句的组合，不断的选择

- 几何角度

根据某种准则划分特征空间

最终目的：提高分类样本的纯度

ID3 决策树

- 自信息

- 信息熵（自信息的期望）

其中 X 作为随机变量，假设可能有 a, b, c 3种可能的状态：

p（a|b|c)=1 是最确定的，信息熵最小
p(a) = p(b) = p© 时可能性相同， X是最不确定的，信息熵最大

将样本类别标记视作随机变量，各个类别在样本集合中的占比视作各类别取值的概率，此时信息熵的 不确定性 可以转化为 集合内样本的纯度

- 条件熵（ Y 的信息熵关于概率分布 X 的期望）

在已知 X 后 Y 的不确定性

- 信息增益

已知属性特征 a 的取值后， y 的不确定减少的量

- ID3 决策树

以信息增益为准则选择划分属性的决策树

- 问题

信息增益可能对取值数目多的属性有偏好（比如编号）

C4.5决策树

- 增益率

-- 属性固有值

a 可能取值的个数 V 越多，则通常其固有值 IV（a）越大

- 缺点

增益率可能对取值数目少的属性有偏好

C45算法 并未完全使用 "增益率"替代 "信息增益"。采用启发式算法：先选出信息增益高出平均水平的属性，然后从中选择增益率最高的。

CART 决策树

- 基尼值

从样本集合D中随机抽取两个样本，其类别标记不一致的概率

- 属性的基尼指数

- CART 决策树的实际构造算法

上一篇：Python27 神经网络中的重要概念和可视化实现

下一篇：Smali指令查询白皮书

热门推荐

01GitHub 镜像站点 02【超详细教程】手把手教你从微软官网免费下载Windows 10官方原版ISO镜像（2025最新版）03安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）04UV安装并设置国内源 05React CVE-2025-55182漏洞排查与修复指南 06智能库存管理的需求预测模型：从业务痛点到落地代码的完整实践 07BongoCat - 跨平台键盘猫动画工具 08Linux下V2Ray安装配置指南 09本地部署阿里最新开源的Z-Image 10从入门到实战：Gemini 3 使用指南速览