决策树学习

1. 背景

DT决策树是一种基本的分类与回归方法,其学习时,利用训练数据,根据损失函数最小化原则建立DT模型。

分类DT主要优点:模型具有可读性,分类速度快。

由DT树的根结点到叶结点的每一条路径构建一条规则,即组合特征 ,路径上内部结点

的特征对应着规则的条件,而叶结点的类对应着规则的结论。这些路径互斥且完备。

DT学习通常包括3个步骤:特征选择、DT的生成与DT的修剪。DT的生成只考虑局部最优,而DT的剪枝则考虑全局最优。

DT学习是由训练数据集估计条件概率模型,其损失函数通常是正则化的极大似然函数,其策略是损失函数为目标函数的最小化。

2. 特征选择

特征选择在于选取对训练数据具有分类能力的特征,这样可以提高DT学习的效率。通常特征选择的准则是信息增益或信息增益比。

2.1 熵

随机变量X的熵定义为 (对数以2为底时,熵的单位叫bit;以e为底时,熵的单位叫nat)。

其中 ,i=1,2,...,n

熵只依赖于X的分布,与X的取值无关,且

(1)ID3算法;

(2)C4.5算法;

(3)CART算法;

3. DT的生成

4. DT的剪枝

相关推荐
写写闲篇儿1 天前
下一个更大元素(一)
数据结构·算法
MobotStone1 天前
从金鱼记忆到过目不忘:Transformer 如何让AI真正理解一句话?
算法
炽烈小老头1 天前
【每天学习一点算法 2025/12/19】二叉树的层序遍历
数据结构·学习·算法
xian_wwq1 天前
【学习笔记】数据血缘
笔记·学习·数据血缘
Xの哲學1 天前
Linux grep命令:文本搜索的艺术与科学
linux·服务器·算法·架构·边缘计算
soft20015251 天前
MySQL Buffer Pool深度解析:LRU算法的完美与缺陷
数据库·mysql·算法
map_vis_3d1 天前
JSAPIThree LODModel 性能优化学习笔记:细节层次模型加载
笔记·学习·3d
WBluuue1 天前
AtCoder Beginner Contest 436(ABCDEF)
c++·算法
fie88891 天前
广义 S 变换(GST)地震信号时频谱
算法
MarkHD1 天前
智能体在车联网中的应用:第9天 核心工具链与仿真世界:SUMO交通仿真入门——从安装到构建你的第一个虚拟十字路口
学习