决策树的相关理论学习

云日松2025-07-14 8:45

基本原理：分而治之，基本就是按照树的节点一级一级走下去。

一、划分选择

信息增益

信息熵 ：如果数据集中第类样本所占的比例为，则的信息熵为：

值越小，则的纯度越高；

信息增益：

其中是用于划分样本集的离散属性，是划分之后产生的分支节点数，是分支节点在上的取值为的样本。信息增益越大，则该属性划分的"纯度"提升越大；

增益率

其中

注：增益率这个准则偏向于可取值数目较少的属性，所以一般是先从划分属性中找出信息增益高于平均水平的属性，然后再从中选择增益率最高的。

基尼指数

基尼值（数据集纯度）

该式子反应的是从数据集中随机抽取两个样本的标记不一致 的概率，故该值越小，则数据集的纯度越高；

基尼指数

一般我们选择基尼指数最小的属性作为最优划分属性；

二、剪枝处理（解决过拟合）

预剪枝

若当前结点划分不能提升性能则停止划分，并标记为叶结点。

后剪枝

后剪枝：先训练一个完整的决策树，再自底向上判断每一个非叶结点，若其变为叶结点能提升性能，那么久将该子树替换为叶结点。

注：是否提升性能，使用信息增益准则来判断。

三、连续值、缺失值

连续值处理方式

一般就是正常二分法；连续值类似数值，离散值类似某些名词。

缺失值处理方式

一般都是将确实某属性的某样本划给所有的结点，再将其所在的子结点的属性值调整一下。

四、多变量决策树

分裂节点的时候，可按照多个特征属性来决定结点分支。

上一篇：Vue懒加载全揭秘：从2.x到3.0，我是这样优化首屏速度的！

下一篇：决策树学习

热门推荐

01GitHub 镜像站点 02BongoCat - 跨平台键盘猫动画工具 03UV安装并设置国内源 04Linux下V2Ray安装配置指南 05GitLab 零基础入门指南：从安装到项目管理全流程 06NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 07安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）08jdk21下载、安装（Windows、Linux、macOS）09在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）10Labelme从安装到标注：零基础完整指南