决策树总结

Y200309162025-08-19 20:51

1. 决策树的基本概念

定义：决策树是一种树形结构的机器学习模型，从根节点开始，通过特征的分支选择一步步走到叶子节点，最终完成分类或回归任务。
组成：
- 根节点：第一个特征选择点。
- 非叶子节点与分支：中间的特征切分过程。
- 叶子节点：最终的决策结果。

2. 决策树的训练与测试

训练阶段：从训练数据中构造决策树，核心在于如何选择特征进行切分。
测试阶段：根据构造好的决策树，对新数据进行分类或回归预测。

3. 特征切分的关键问题

目标：选择能够最好地切分数据的特征，使得分类效果最优。
方法：通过衡量标准（如熵和信息增益）来选择最佳特征。

4. 衡量标准：熵

熵（Entropy）：表示随机变量的不确定性，公式为：

H(X)=−∑pilog⁡piH(X)=−∑pilogpi
- 熵值越大，不确定性越高。
- 当类别完全确定（p=0p=0或p=1p=1）时，熵为0；当类别完全不确定（p=0.5p=0.5）时，熵最大。

5. 信息增益

定义：表示特征XX使得类别YY的不确定性减少的程度。
作用：选择信息增益最大的特征作为节点，使得分类后的数据尽可能"纯净"（同类在一起）。
计算步骤：
1. 计算原始数据的熵。
2. 按某特征切分后，计算各子集的熵的加权和。
3. 信息增益 = 原始熵 - 切分后的熵。

6. 决策树构造实例

数据：14天打球情况，特征包括天气（Outlook）等。
步骤：
1. 计算原始熵（如打球和不打球的分布）。
2. 对每个特征（如Outlook）计算切分后的熵和信息增益。
3. 选择信息增益最大的特征作为根节点，递归构造子树。

7. 关键点总结

核心思想：通过递归选择最优特征切分数据，构建树形模型。
难点：如何选择特征切分点？------使用信息增益等衡量标准。
优点：模型直观，易于理解和解释；适用于分类和回归任务。
缺点：容易过拟合，需通过剪枝等方法优化。

8. 应用场景

分类问题（如是否打球）。
回归问题（如预测数值型目标）。

决策树是机器学习中基础而强大的工具，理解其原理和构造过程对掌握更复杂的模型（如随机森林、梯度提升树）至关重要

上一篇：低端设备加载webp ANR

下一篇：深入浅出决策树

热门推荐

01GitHub 镜像站点 02【超详细教程】手把手教你从微软官网免费下载Windows 10官方原版ISO镜像（2025最新版）03UV安装并设置国内源 04安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）05React CVE-2025-55182漏洞排查与修复指南 06BongoCat - 跨平台键盘猫动画工具 07本地部署阿里最新开源的Z-Image 08Linux下V2Ray安装配置指南 09智能库存管理的需求预测模型：从业务痛点到落地代码的完整实践 10Labelme从安装到标注：零基础完整指南