决策树的相关理论学习

  • 基本原理:分而治之,基本就是按照树的节点一级一级走下去。

一、划分选择

信息增益

  • 信息熵 :如果数据集中第 类样本所占的比例为 ,则 的信息熵为:

越小 , 则 的纯度越高

  • 信息增益

其中 是用于划分样本集的离散属性, 是划分之后产生的分支节点数, 是分支节点在 上的取值为 的样本。信息增益越大 ,则该属性划分的"纯度"提升越大

增益率

其中

:增益率这个准则偏向 于可取值数目较少 的属性,所以一般是先从划分属性中找出信息增益高于 平均水平的属性,然后再从中选择增益率最高的。

基尼指数

  • 基尼值(数据集纯度)

该式子反应的是从数据集中随机抽取两个样本的标记不一致 的概率,故该值越小 ,则数据集的纯度越高

  • 基尼指数

一般我们选择基尼指数最小 的属性作为最优划分属性;

二、剪枝处理(解决过拟合)

预剪枝

  • 若当前结点划分不能提升性能则停止划分,并标记为叶结点。

后剪枝

  • 后剪枝:先训练一个完整的决策树,再自底向上判断每一个非叶结点,若其变为叶结点能提升性能,那么久将该子树替换为叶结点。

:是否提升性能,使用信息增益准则来判断。

三、连续值、缺失值

连续值处理方式

  • 一般就是正常二分法;连续值类似数值,离散值类似某些名词。

缺失值处理方式

  • 一般都是将确实某属性的某样本划给所有的结点,再将其所在的子结点的属性值调整一下。

四、多变量决策树

  • 分裂节点的时候,可按照多个特征属性来决定结点分支。