8.18 机器学习-决策树（1）

.银河系.2025-08-19 23:02

决策树

1. 树模型本质

分类/回归：数据从根节点→叶子节点逐步决策，最终落在叶子节点。

2. 树的组成

根节点：第一个分裂的选择点。

非叶子节点：中间判断条件的过程。

叶子节点：最终决策的结果。

3. 训练 vs 测试

训练阶段：用训练集选择特征、切分节点。

测试阶段：按已建好的树路径直接进行预测。

4. 特征选择标准

熵：衡量数据不确定性（熵越低→数据不确定性越小）。

信息增益：特征分裂后熵的不确定减少的程度（增益越大→特征越优）。

5. 构造实例（以"14天打球"为例）

步骤：

计算原始熵（9打球/5不打球 → 熵=0.940）。
计算各特征（如Outlook）的条件熵和信息增益。
选增益最大的特征作为根节点，递归生成子树。

课堂练习：通过数据集构造决策树

1、总熵：

E(D)=−k∑plog2(p)

（属于鱼类=是）：2个（1、2）

（属于鱼类=否）：3个（3、4、5）

熵≈0.971

2、信息增益

是：3（1、2、3）

熵：−(32log232+31log231)≈0.918

否：2（4、5）

熵：0

信息增益=0.420

上一篇：Linx--MySQL--安装笔记详细步骤！

下一篇：决策树的基本学习

热门推荐

01GitHub 镜像站点 02《大数据技术原理与应用》实验报告三熟悉HBase常用操作 03UV安装并设置国内源 04综合整理：pdf预览显示：你尝试预览的文件可能对你的计算机有害。如果你信任此文件以及其来源，请打开此文件以看其内容，如何解决以正常预览文件 05BongoCat - 跨平台键盘猫动画工具 06Linux下V2Ray安装配置指南 07npm使用国内淘宝镜像的方法 08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09jdk21下载、安装（Windows、Linux、macOS）10在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）