机器学习笔记(四)-决策树

决策过程的最终结果对应我们期望的判定结果,一颗决策树包含一个根结点、若干个内部结点、若干个叶结点。决策树的生成是一个递归的过程,一般三种情况会导致递归返回:

(1)当前结点包含的样本属于同一类别,无需划分

(2)当前属性集为空,或者所有样本在所有属性上取值相同,无法划分(此时我们把当前结点标记为叶结点,将其类别设定为该结点所含样本最多的类别,是利用当前结点的后验分布)

(3)当前结点包含的样本集合为空,不能划分(把父节点的样本分布作为当前结点的先验分布)。

决策树学习关键:即如何选择最优划分属性,一般我们希望分支结点包含的样本尽可能属于同一类别。

划分选择:这些准则对决策树的尺寸影响较大,对其泛化能力影响较小

1、以信息增益作为准则----对取值数目较多的属性有偏好

定义信息熵作为样本纯度度量的指标。

2、增益率----对取值数目较少的属性有偏好

3、基尼系数

剪枝处理:使用方法和程度对决策树泛化能力影响显著

目的:为了解决过拟合

基本策略:预剪枝(可能带来欠拟合风险)、后剪枝(欠拟合的风险很小,泛化性能往往优于预剪枝)

连续与缺失值(在决策数中使用连续属性)

连续值处理:连续属性在样本上的取值进行排序,对相邻属性取值的中位数作为候选点进行划分。

PS:若当前结点划分属性为连续属性,该属性还可以作为其后代结点的划分属性,这一点与离散属性不同。

缺失值处理:

问题:属性值缺失如何进行划分属性选择;给定划分属性,样本在该属性上缺失值,应如何对样本进行划分。

方法:利用没有缺失的样本判断属性的优劣;给样本属性已知和样本属性未知的样本不同的权值。

多变量决策树:

将每个属性视为一个坐标轴,对样本分类意味着在这个坐标空间中寻找不同类样本之间的分类边界,决策树分类边界有一个明显的特点,即由若干个与坐标轴平行的分段组成,因此具有较好的可解释性。当使用斜划分时,就成为了多变量决策树。此时,非叶结点不再是某一个属性,而是对属性的线性组合进行测试。

相关推荐
m0_46644103詹湛3 分钟前
FPGA时序优化与高速接口实战手册
笔记·学习·fpga开发·硬件架构·verilog
问心无愧051315 分钟前
ctf show web 入门39
android·前端·笔记
Yeh20205816 分钟前
Mybatis笔记一
java·笔记·mybatis
阳明山水23 分钟前
MAPE仅2%为何业务仍不满意?
人工智能·深度学习·机器学习·微信·微信开放平台
羊群智妍24 分钟前
2026 AI搜索优化技术:GEO监测工具选型与应用
笔记
killerbasd42 分钟前
总结 5.11
人工智能·机器学习
半导体守望者1 小时前
MKS elite 300 600 750W RF Plasma Generator 射频电源 OPERATIONMANUAL
经验分享·笔记·机器人·自动化·制造
05候补工程师1 小时前
【线性代数笔记】初等变换、正交化与特殊矩阵性质核心总结
经验分享·笔记·线性代数·考研·矩阵
初心未改HD1 小时前
机器学习之随机森林详解
人工智能·随机森林·机器学习
星浩AI1 小时前
(一)PyTorch 深度学习环境搭建与微调实战[附源码]
pytorch·深度学习·机器学习