第四章 决策树

一、决策树是一类常见的机器学习方法,又称"判别树",决策过程的最终结论对应了我们所希望的判定结果。在决策过程中提出的每个判定问题都是对某个属性的"测试",每个测试的结果或是导出最终结论,或是导出进一步的判定问题,其考虑范围是在上次决策结果的限定范围之内。

一棵决策树包含三种情况:

  • 一个根结点:包含样本全集

  • 若干个内部结点:对应属性测试,每个结点包含的样本集合根据属性测试结果划分到子结点中

  • 若干个叶结点:对应决策结果

二、决策树学习基本算法:

  • 决策树的生成是一个递归过程,在这个决策树学习基本算法中,有三种情形会导致递归返回:

    (1)当前结点包含样本属同一类别,无需划分;

    ​ (2)当前属性集为空,所有样本在所有属性上取值相同,无法划分;

    ​ (3)当前结点包含的样本集合为空,不能划分。

  • 在第2种情形下,把当前结点标记为叶结点,并将其类别设定为该结点所含样本最多的类别;

  • 在第3种情形下,同样把当前结点标记为叶结点,但将其类别设定为其父结点所含样本最多的类别。

三、决策树划分选择:

  • 关键是如何选择最优划分属性。

  • 旨在使决策树分支节点所包含样本尽可能属于同一类别,提高节点"纯度"。

四、划分属性:

  1. 信息增益

    • 度量样本集合纯度的指标。
    • 信息熵是样本集合纯度的度量,值越小,纯度越高。
    • 利用属性对样本集进行划分可以得到信息增益,信息增益越大,纯度提升越大。
    • 著名的ID3决策树算法就是以"信息增益"为准则来选择划分属性。
  2. 增益率

    由于信息增益对可取值数目较多的属性有所偏好,C4.5决策树算法使用增益率选择最优划分属性。

  3. 基尼指数

    • 反映了从数据集中随机抽取两个样本,其类别标记不一致的概率。

    • 基尼指数越小,数据集纯度越高。

  4. 剪枝处理

    • 处理"过拟合"的手段,包括预剪枝和后剪枝。

    • 预剪枝是在划分前进行估计,若当前节点划分不能提升决策树泛化性能,则停止划分。

    • 后剪枝是先生成完整决策树,然后自底向上考察非叶节点,若替换为叶节点能提升性能,则进行替换。

  5. 连续与缺失值处理

    • 在决策树中使用连续属性,采用二分法处理。

      二分法:

      步骤:选择一个分割点,将连续属性的范围分为两个部分,每个部分对应一个分支。

      分割点选择:通常选择使信息增益(或增益率、基尼指数)最大的点作为分割点。

      实现:遍历所有可能的分割点,计算每个点的信息增益,选择最佳分割点。

    • 对于属性值缺失的样本,有特定的处理方法:

      忽略缺失值:当一个样本的某个属性值缺失时,可以简单地忽略这个样本,只使用完整的样本来构建决策树。

      分配概率:对于缺失值,可以根据其他非缺失样本在该属性上的分布情况,为缺失样本分配一个概率分布。

      替代值:可以使用该属性的非缺失值的统计量(如平均值、中位数)来填充缺失值。

相关推荐
weixin_307779136 小时前
从脚本执行到智能体协作:AI辅助测试能力的范式重构
运维·开发语言·人工智能·算法·测试用例
量化君也6 小时前
从回测到全自动实盘交易,全天候策略需要经历哪些改造?
大数据·人工智能·python·算法·金融
fox_lht6 小时前
第十五章 函数式语言:迭代器和闭包
开发语言·后端·学习·算法·rust
Eloudy6 小时前
ns-3 网络仿真简介
网络·机器学习·量子计算·量子力学
zhengzhouliuhaha7 小时前
智能医疗设备控费系统:以全院一体化管控,筑牢医疗资源“安全阀”
大数据·数据结构·人工智能·算法·安全·机器学习·软件需求
June`7 小时前
CUDA程序效率如何计算以及工具如何使用
算法·cuda
兰令水7 小时前
leecodecode【树形DP】【2026.6.11打卡-java版本】
java·算法·深度优先
装不满的克莱因瓶7 小时前
RLHF中的PPO算法——大语言模型对齐优化的核心引擎
人工智能·python·深度学习·算法·机器学习·语言模型·自然语言处理
王小王-1237 小时前
深度学习赋能:基于机器学习的恶意 URL 检测系统
人工智能·机器学习·恶意网址检测·恶意url检测·异常网址检测·机器学习异常网址检测
SWAGGY..7 小时前
Linux系统编程:(十三)环境变量
java·linux·算法