《机器学习》周志华-CH4（决策树）

4.1基本流程

决策树是一类常见的机器学习方法，又称"判别树"，决策过程最终结论对应了我们所希望的判定结果。

一棵决策树 { 一个根结点包含样本全集若干个内部结点对应属性测试，每个结点包含的样本集合根据属性测试结果划分到子结点中若干个叶结点对应决策结果一棵决策树 \begin{cases} 一个根结点 &包含样本全集 \\ 若干个内部结点 & 对应属性测试，每个结点包含的样本集合根据属性测试结果划分到子结点中 \\ 若干个叶结点 & 对应决策结果 \\ \end{cases} 一棵决策树⎩ ⎨ ⎧一个根结点若干个内部结点若干个叶结点包含样本全集对应属性测试，每个结点包含的样本集合根据属性测试结果划分到子结点中对应决策结果

决策树的生成是一个递归过程

有三种情况会递归返回

4.2划分选择

关键在于如何选择最优划分属性

我们希望决策树分支结点所包含的样本尽可能属同一类别，即"纯度"（purity）越来越高

4.2.1信息增益

"信息熵"（information entropy）是度量样本纯度的一种指标

学习一棵能预测是不是好瓜的决策树。 ∣ y ∣ = 2 |y|=2 ∣y∣=2

数据集一共17个西瓜，正例8个，反例9个。则 P 1 = 8 17 P_{1}=\frac{8}{17} P1=178, P 2 = 9 17 P_{2}=\frac{9}{17} P2=179

计算当前属性集合{色泽，根蒂，瞧声，纹理，脐部，触感}每个属性信息增益。

同理其他信息增益 { G a i n ( D , 根蒂 ) = 0.143 G a i n ( D , 敲声 ) = 0.141 G a i n ( D , 纹理 ) = 0.381 最大，选为划分属性 G a i n ( D , 脐部 ) = 0.289 G a i n ( D , 触感 ) = 0.006 同理其他信息增益 \begin{cases} Gain(D,根蒂)=0.143 &\\ Gain(D,敲声)=0.141 & \\ Gain(D,纹理)=0.381 & 最大，选为划分属性 \\ Gain(D,脐部)=0.289 & \\ Gain(D,触感)=0.006 & \\ \end{cases} 同理其他信息增益⎩ ⎨ ⎧Gain(D,根蒂)=0.143Gain(D,敲声)=0.141Gain(D,纹理)=0.381Gain(D,脐部)=0.289Gain(D,触感)=0.006最大，选为划分属性