如何构建多层决策树

构建一颗多层的决策树时,通过递归选择最佳划分特征(依据 信息增益基尼系数 )对数据集进行划分,直到满足停止条件(例如叶节点纯度达到要求或树的深度限制)。以下是基于 信息增益基尼系数 的递推公式和推导过程:


1. 基于信息增益的递推公式与推导

信息增益的目标是选择能够 最大化信息增益 的特征 和对应的分割点 t ,划分数据集 D 为​。

递推公式

信息增益计算公式:

信息增益定义为划分前后的信息熵差值:

  • H(D):数据集 D 的信息熵。
  • :数据集 D 按特征 cc 和分割点 t 划分后的条件熵。
信息熵公式:

对于一个数据集 D(含 n 个样本,类别数为 k ),信息熵定义为:

其中,,即类别 的样本数占总样本数的比例。

条件熵公式:

数据集 D 按特征 和分割点 t 划分后:

  • 左子集:
  • 右子集:

条件熵为:

其中:

递推推导过程

  1. 初始化根节点

    • 输入初始数据集 D 。
    • 计算信息熵 H(D) 。
  2. 选择划分特征和分割点

    • 对每个特征 和可能的分割点 t,计算信息增益
    • 遍历所有特征和分割点,选择 最大的 和 t 。
  3. 递归划分

    • 使用最优特征 和分割点 t 划分数据集:
      • 左子集
      • 右子集
    • 重复上述过程,直到满足停止条件。

2. 基于基尼系数的递推公式与推导

CART 决策树使用 基尼指数 作为划分标准。目标是选择使 加权基尼系数最小 的特征 XjX_jXj​ 和分割点 t 。

递推公式

基尼系数公式:

对于数据集 D ,基尼系数定义为:

其中, ​。

加权基尼指数公式:

数据集 D 按特征 和分割点 t 划分后,计算加权基尼指数:

其中:


递推推导过程

  1. 初始化根节点

    • 输入初始数据集 D 。
    • 计算基尼系数 Gini(D) 。
  2. 选择划分特征和分割点

    • 对每个特征 和可能的分割点 t ,计算加权基尼指数:
    • 遍历所有特征和分割点,选择使 最小的 和 t 。
  3. 递归划分

    • 使用最优特征 和分割点 t 划分数据集:
      • 左子集
      • 右子集
    • 重复上述过程,直到满足停止条件。

3. 决策树构建停止条件

  • 样本全部属于同一类别(纯度为 1)。
  • 数据集不能再划分(没有剩余特征或达到深度限制)。
  • 划分后的子集样本数太小,停止进一步划分。

4. 总结递推公式

信息增益递推公式:

基尼系数递推公式:

在决策树构建过程中,通过递归应用上述公式,选择最优的特征和分割点 t 来划分数据,最终构建完整的树。

相关推荐
Coder个人博客12 分钟前
Llama.cpp 整体架构分析
人工智能·自动驾驶·llama
江上鹤.14819 分钟前
Day 50 CBAM 注意力机制
人工智能·深度学习
deephub22 分钟前
大规模向量检索优化:Binary Quantization 让 RAG 系统内存占用降低 32 倍
人工智能·大语言模型·向量检索·rag
人工智能培训27 分钟前
深度学习—卷积神经网络(1)
人工智能·深度学习·神经网络·机器学习·cnn·知识图谱·dnn
ㄣ知冷煖★27 分钟前
【Google系列】AI智能体技术白皮书
人工智能·agent
新加坡内哥谈技术29 分钟前
阿尔茨海默症的成因与风险因素到模型与干预分析
人工智能
云天徽上31 分钟前
【机器学习】Kaggle案例之Rossmann连锁药店销售额预测:时间序列与机器学习完美融合的实战指南
机器学习·数据挖掘·kaggle
张张张三丰43 分钟前
【文献】金融市场发展与企业风险管理:来自上海原油期货上市的证据
人工智能·# 相关知识
曹牧44 分钟前
Java:Math.abs()‌
java·开发语言·算法
阿里云大数据AI技术1 小时前
真实案例复盘:从“三套烟囱”到 All in ES,这家企业如何砍掉 40%运维成本?
人工智能·elasticsearch·搜索引擎