决策树学习

决策树学习

MusicDancing2023-11-27 18:25

1. 背景

DT决策树是一种基本的分类与回归方法，其学习时，利用训练数据，根据损失函数最小化原则建立DT模型。

分类DT主要优点：模型具有可读性，分类速度快。

由DT树的根结点到叶结点的每一条路径构建一条规则，即组合特征 ，路径上内部结点

的特征对应着规则的条件，而叶结点的类对应着规则的结论。这些路径互斥且完备。

DT学习通常包括3个步骤：特征选择、DT的生成与DT的修剪。DT的生成只考虑局部最优，而DT的剪枝则考虑全局最优。

DT学习是由训练数据集估计条件概率模型，其损失函数通常是正则化的极大似然函数，其策略是损失函数为目标函数的最小化。

特征选择在于选取对训练数据具有分类能力的特征，这样可以提高DT学习的效率。通常特征选择的准则是信息增益或信息增益比。

随机变量X的熵定义为 (对数以2为底时，熵的单位叫bit；以e为底时，熵的单位叫nat)。

其中，i=1,2,...,n

熵只依赖于X的分布，与X的取值无关，且。

（1）ID3算法；

（2）C4.5算法；

（3）CART算法；