- 基本原理:分而治之,基本就是按照树的节点一级一级走下去。
一、划分选择
信息增益
- 信息熵 :如果数据集中第
类样本所占的比例为
,则
的信息熵为:
值越小 , 则
的纯度越高;
- 信息增益:
其中 是用于划分样本集的离散属性,
是划分之后产生的分支节点数,
是分支节点在
上的取值为
的样本。信息增益越大 ,则该属性划分的"纯度"提升越大;
增益率
其中
注 :增益率这个准则偏向 于可取值数目较少 的属性,所以一般是先从划分属性中找出信息增益高于 平均水平的属性,然后再从中选择增益率最高的。
基尼指数
- 基尼值(数据集纯度)
该式子反应的是从数据集中随机抽取两个样本的标记不一致 的概率,故该值越小 ,则数据集的纯度越高;
- 基尼指数
一般我们选择基尼指数最小 的属性作为最优划分属性;
二、剪枝处理(解决过拟合)
预剪枝
- 若当前结点划分不能提升性能则停止划分,并标记为叶结点。
后剪枝
- 后剪枝:先训练一个完整的决策树,再自底向上判断每一个非叶结点,若其变为叶结点能提升性能,那么久将该子树替换为叶结点。
注:是否提升性能,使用信息增益准则来判断。
三、连续值、缺失值
连续值处理方式
- 一般就是正常二分法;连续值类似数值,离散值类似某些名词。
缺失值处理方式
- 一般都是将确实某属性的某样本划给所有的结点,再将其所在的子结点的属性值调整一下。
四、多变量决策树
- 分裂节点的时候,可按照多个特征属性来决定结点分支。