吃瓜教程3|决策树

ID3算法

假定当前样本集合D中第k类样本所占比例为pk,则样本集合D的信息熵定义为

信息增益

C4.5算法

ID3算法存在一个问题,就是偏向于取值数目较多的属性,因此C4.5算法使用了"增益率"(gain ratio)来选择划分属性

CART算法

使用属性α划分后的基尼指数为

剪枝处理

复制代码
* 预剪枝(prepruning):在构造的过程中先评估,再考虑是否分支。  
* 后剪枝(post-pruning):在构造好一颗完整的决策树后,自底向上,评估分支的必要性。  

评估指的是性能度量,即决策树的泛化性能。

连续值与缺失值处理

连续值

复制代码
* 首先将α的所有取值按升序排列,所有相邻属性的均值作为候选划分点(n-1个,n为α所有的取值数目)。  
* 计算每一个划分点划分集合D(即划分为两个分支)后的信息增益。  
* 选择最大信息增益的划分点作为最优划分点。

缺失值

假定为样本集中的每一个样本都赋予一个权重,根节点中的权重初始化为1,则定义:

通过在样本集D中选取在属性α上没有缺失值的样本子集,计算在该样本子集上的信息增益,最终的信息增益等于该样本子集划分后信息增益乘以样本子集占样本集的比重。即:

对于(2):若该样本子集在属性α上的值缺失,则将该样本以不同的权重(即每个分支所含样本比例)划入到所有分支节点中。该样本在分支节点中的权重变为:

多变量决策树

对于高维数据空间,决策树形成的分类边界有一个特点:轴平行,引入多变量决策树实现斜划分,分裂节点变为k1*x1+k2*x2+...

相关推荐
一条大祥脚几秒前
Cuda Rudece算子实现(附4090/h100测试)
java·数据结构·算法
Thomas_Cai9 分钟前
YOLOv10剪枝|稀疏训练、基于torch-pruning剪枝以及微调实践
算法·yolo·剪枝·稀疏训练·结构化剪枝
CoderYanger12 分钟前
贪心算法:1.柠檬水找零
java·算法·leetcode·贪心算法·1024程序员节
猫天意13 分钟前
【即插即用模块】AAAI2026 | MHCB+DPA:特征提取+双池化注意力,涨点必备,SCI保二争一!彻底疯狂!!!
网络·人工智能·深度学习·算法·yolo
_codemonster14 分钟前
AI大模型入门到实战系列(三)词元(token)和嵌入(embedding)
人工智能·机器学习·embedding
zl_vslam21 分钟前
SLAM中的非线性优-3D图优化之相对位姿g2o::EdgeSE3Expmap(十)
人工智能·算法·计算机视觉·3d
deardao26 分钟前
【智能制造】智能制造系统中的时间序列分类:最先进的机器学习算法的实验评估
算法·机器学习·制造
相思半26 分钟前
机器学习模型实战全解析
大数据·人工智能·笔记·python·机器学习·数据挖掘·transformer
秋刀鱼 ..42 分钟前
2026拓展现实、人机交互与人工智能国际研讨会(XRHCIAI 2026)
运维·人工智能·科技·机器学习·人机交互·制造
2401_841495641 小时前
【LeetCode刷题】跳跃游戏
数据结构·python·算法·leetcode·游戏·贪心算法·数组