第四章 决策树

定义:监督学习方法,树状结构递归划分特征空间,最终实现分类和回归。

4.1基本流程

在出现以下三种情形会出现递归返回:
当前节点所有样本属于同一类别
当前可用特征集为空
样本划分结果为空,直接用原划分集合作为该结果

4.2划分选择

下三种计算方法是衡量决策树属性划分有效性的指标,但衡量标准不一样。

4.2.1信息增益

熵、噪音的定义
重点记住信息熵定义的计算公式。
下图为信息增益的概念理解:计算二层划分对于第一层直接算的熵值(需要消耗值)的提升。
上图详细给出信息增益的公式。在ID3决策树中,就是每次选择信息增益最大的属性进行划分,训练速度更快,成本更低。

4.2.2增益率

其中分母IV(a)起到了规范化的作用,方便进行数据比较。优化了信息增益对可取值数目较多属性的偏好。

4.2.3基尼指数

4.3剪枝处理

剪枝是缓解决策树过拟合的主要方法。
预剪枝:基于贪心算法,自上而下,当划分后验证集精度下降,就需要避免此划分。好处:不仅降低过拟合风险,还减少决策树的训练时间和测试时间开销。坏处:贪心算法,可能带来欠拟合风险。
后剪枝:根据生成后的决策树,好处:欠拟合风险小,泛化性能好于预剪枝。坏处:训练时间开销大于未剪枝和预剪枝。

4.4连续与缺失值

4.4.1连续值处理

就是每个间隔处都视为分割点,依次算出最大的信息增益,作为该属性的信息增益

4.4.2缺失值处理

只有最后算数据集信息增益时,需要乘以ρ,只算无缺失值的权重。

算增益率时,注意各样本权重的赋予。

4.5多变量决策树

在多变量决策树中,不是为每个非叶子节点寻找一个最优划分属性,而是试图找到一个合适的线性分类器
相关推荐
吟安安安安4 分钟前
适合短期冲刺的学习工作流(针对算法)
学习·算法
科研前沿9 分钟前
什么是时空融合技术?
大数据·人工智能·数码相机·算法·重构·空间计算
小何code9 分钟前
人工智能【第8篇】监督学习实战:线性回归与逻辑回归算法详解(万字长文+完整代码实现)
人工智能·python·学习·机器学习·逻辑回归·线性回归
AI科技星14 分钟前
全域数学本源公理:0、1、∞ 三者核心关系 (典籍定稿版)
人工智能·算法·数学建模·数据挖掘·量子计算
AI科技星19 分钟前
全域数学·第卷:场计算机卷(场空间计算机)【乖乖数学】
java·开发语言·人工智能·算法·机器学习·数学建模·数据挖掘
Deepoch21 分钟前
数学模型驱动:Deepoc 低幻觉数学大模型助力发动机全周期智能优化
人工智能·算法·机器学习·deepoc·数学大模型·低幻觉
嘻嘻哈哈樱桃30 分钟前
牛客经典101题解题集--贪心算法+模拟
java·python·算法·贪心算法
AKDreamer_HeXY30 分钟前
QOJ 12255 - 36 Puzzle 题解
数据结构·c++·数学·算法·icpc·qoj
AI科技星34 分钟前
《全域数学》第三卷:代数原本 · 全书详述【乖乖数学】
开发语言·人工智能·机器学习·数学建模
AI科技星39 分钟前
《全域数学》第一部 数术本源 第三卷 代数原本第14篇 附录二 猜想证明【乖乖数学】
人工智能·算法·数学建模·数据挖掘·量子计算