如何构建多层决策树

勤劳的进取家2025-01-09 18:20

构建一颗多层的决策树时，通过递归选择最佳划分特征（依据 信息增益 或 基尼系数 ）对数据集进行划分，直到满足停止条件（例如叶节点纯度达到要求或树的深度限制）。以下是基于 信息增益 和 基尼系数 的递推公式和推导过程：

1. 基于信息增益的递推公式与推导

信息增益的目标是选择能够 最大化信息增益 的特征和对应的分割点 t ，划分数据集 D 为和。

递推公式

信息增益计算公式：

信息增益定义为划分前后的信息熵差值：

H(D)：数据集 D 的信息熵。
：数据集 D 按特征 cc 和分割点 t 划分后的条件熵。

信息熵公式：

对于一个数据集 D（含 n 个样本，类别数为 k ），信息熵定义为：

其中，，即类别的样本数占总样本数的比例。

条件熵公式：

数据集 D 按特征和分割点 t 划分后：

左子集：
右子集：

条件熵为：

其中：

递推推导过程

初始化根节点：
- 输入初始数据集 D 。
- 计算信息熵 H(D) 。
选择划分特征和分割点：
- 对每个特征和可能的分割点 t，计算信息增益：
- 遍历所有特征和分割点，选择最大的和 t 。
递归划分：
- 使用最优特征和分割点 t 划分数据集：
  - 左子集
  - 右子集
- 对和重复上述过程，直到满足停止条件。

2. 基于基尼系数的递推公式与推导

CART 决策树使用 基尼指数 作为划分标准。目标是选择使 加权基尼系数最小 的特征 XjX_jXj 和分割点 t 。

递推公式

基尼系数公式：

对于数据集 D ，基尼系数定义为：

其中，。

加权基尼指数公式：

数据集 D 按特征和分割点 t 划分后，计算加权基尼指数：

其中：

递推推导过程

初始化根节点：
- 输入初始数据集 D 。
- 计算基尼系数 Gini(D) 。
选择划分特征和分割点：
- 对每个特征和可能的分割点 t ，计算加权基尼指数：
- 遍历所有特征和分割点，选择使最小的和 t 。
递归划分：
- 使用最优特征和分割点 t 划分数据集：
  - 左子集
  - 右子集
- 对和重复上述过程，直到满足停止条件。

3. 决策树构建停止条件

样本全部属于同一类别（纯度为 1）。
数据集不能再划分（没有剩余特征或达到深度限制）。
划分后的子集样本数太小，停止进一步划分。

4. 总结递推公式

信息增益递推公式：

基尼系数递推公式：

在决策树构建过程中，通过递归应用上述公式，选择最优的特征和分割点 t 来划分数据，最终构建完整的树。

上一篇：【递归与分治】Leetcode23:合并K个升序链表

下一篇：uni-app 微信小程序发送订阅消息

热门推荐

01GitHub 镜像站点 02UV安装并设置国内源 03BongoCat - 跨平台键盘猫动画工具 04GitLab 零基础入门指南：从安装到项目管理全流程 05Linux下V2Ray安装配置指南 06NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 07Labelme从安装到标注：零基础完整指南 08安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）09在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）10jdk21下载、安装（Windows、Linux、macOS）