【机器学习】决策树

qq_15321452642023-12-24 15:32

参考课程视频：https://www.icourse163.org/course/NEU-1462101162?tid=1471214452

1 概述

样子：

2 分裂

2.1 分裂原则

信息增益

信息增益比

基尼指数

3 终止 & 剪枝

3.1 终止条件

无需分裂
- 当前节点内样本同属一类
无法分裂
- 当前节点内所有样本的特征向量完全相同
- 采用任何特征都无法将当前样本集分为多个子类
无数据可分
- 当前节点内没有样本

3.2 剪枝

剪枝的目的：解决决策树过拟合现象（决策树规模大），提高决策树的泛化性能。

剪枝方法

前剪枝（预剪枝）
- 在决策树的生成过程中同步进行剪枝
- 在节点进行分裂前，对比节点分裂前后决策树的泛化性能指标，若泛化性能在分裂后得到提升，执行分裂；否则不执行分裂。
后剪枝
- 在决策树完全生成后逐步剪去叶子节点
- 常采用启发式方法从最深层的叶子节点或具有最高不纯度的
  叶子节点开始剪枝
- 通过对比剪枝前后的泛化指标，决定是否剪去该叶子节点。

前剪枝 & 后剪枝策略对比：

策略	时间	拟合风险	泛化能力
前剪枝	训练时间较少、测试时间较少	过拟合风险较低、欠拟合风险较高	泛化能力一般
后剪枝	训练时间较长、测试时间较少	过拟合风险较低、欠拟合风险稳定	泛化能力较好

通常后剪枝比前剪枝保留的决策树规模更大。

4 决策树算法

4.1 经典决策树算法

ID3

C4.5

CART(Classification And Regression Tree)

4.2 算法对比分析

算法	特征选择	剪枝	处理数据类型	树类型
ID3	信息增益	无	离散	多叉树
C4.5	信息增益比	前剪枝	离散、连续	多叉树
CART	基尼指数	后剪枝	离散、连续	二叉树

总结：

CART的功能更全：分类、回归
CART具有更好的泛化性能：二叉树，后剪枝。
CART训练时间较长，计算开销较大。
信息增益、信息增益比和基尼指数各有利弊。

上一篇：互联网+建筑工地源码，基于微服务+Java+Spring Cloud +Vue+UniApp开发

下一篇：.net core webapi 大文件上传到wwwroot文件夹

热门推荐

01Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 02全球最强模型Grok4，国内已可免费使用！（附教程）03UV安装并设置国内源 04VMware Workstation Pro虚拟机的下载和安装图文保姆级教程(附下载链接)05KGG转MP3工具|非KGM文件|解密音频 06如何在 Cursor 中继续使用 Claude 07腾讯还是太全面了，限时免费！超全CodeBuddy IDE保姆级教程！（附案例）08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09Claude Code+智谱GLM-4.5接入指南（附实测体验）10Coze 开源了，送上保姆级私有化部署方案【建议收藏】