机器学习速成笔记week9：决策树ID3、C4.5和CART的底层逻辑

第8周

文章目录

第8周
[十六、决策树（Decision Tree）](#十六、决策树（Decision Tree）)

十六、决策树（Decision Tree）

决策树的概念

概念：决策树是一种分类和回归的方法，这里主要讨论分类问题，是一种基于特征对实例进行分类的过程，也是一种特征空间与分类空间的条件概率分布，本质是从训练数据中归纳出一组分类规则。

优点：可解释性强，可读性高，分类速度快

流程：学习时，利用训练数据，根据损失函数最小化建立决策树模型，利用测试数据进行分类，通常分为三步：特征选择，决策树生成和剪枝。

决策树模型

决策树是一种树形结构，由结点和有向边组成，结点包括内部节点和叶结点。内部节点表示特征，叶结点表示类别。

图中圆形是内部节点（特征），方形是叶结点（类别）。

每一条路径都是互斥且完备的，即每一条路径都能表示一个实例，每一个实例仅能一条路径表示。

每一条路径都能计算一个概率分布P（Y｜X），Y表示类别，X表示内部结点的集合（分类条件），决策树分类时强行把符合该路径的实例分到条件概率大的那一类。

例如P（Y｜X）>0.5分到正类（+1），P（Y｜X）<0.5分到负类（-1）

但是这样的决策树模型可以有无穷多个，我们需要找到一个不仅对训练数据有很好的拟合，而且对未知数据有很好的预测，我们用损失函数最小来实现。

但是从无穷多个个决策树中选取最优的一个是NP完全问题，所以现实中通常使用启发式方法近似求解，称为次最优。

方法是递归的选择最优特征，使得各个子数据集有一个最好的分类过程：

首先选取一个最优的特征作为根结点，按照这个特征分类为两个子集
如果这两个子集已经能够被基本正确分类，那么构建叶结点
如果没有被正确分类，那么在子集中继续选择最优特征进行分类
如此递归下去，直至所有子集都被正确分类或者没有合适的特征为止。

但是这样构建的决策树可能产生过拟合问题，那么就要自下而上进行剪枝，就是去掉过于细分的叶结点，将父结点或更高结点改为叶结点。

如果特征数量很多，也可以在决策树学习开始的时候对特征进行选择，只留下对训练数据有足够分类能力的特征。

综上所述，决策树模型包括特征选择、决策树生成和剪枝三个部分，由于决策树表示一个条件概率分布，所以深浅不同的决策树对应不同复杂度的概率模型。决策树的生成对应模型的局部选择，剪枝对应于模型的全局选择。决策树的生成只考虑局部最优，剪枝则考虑全局最优。

决策树常用的算法有ID3、C4.5和CART。

特征选择

如果一个特征有更好的分类能力，或者说，按照这一特征将训练集分割成子集，每个子集在当前条件下有最好的分类，那么就应该选择这个特征。

信息增益（information gain）能很好的表现这一准则。

熵

熵表示随机变量的不确定性。随机变量X的熵表示为：

H ( X ) = − ∑ i = 1 n p i l o g p i H(X)=-\sum_{i=1}^{n}p_ilogp_i H(X)=−i=1∑npilogpi

其中 p i p_i pi表示随机变量 X = x i X=x_i X=xi的概率，当log以2或e为底时，熵的单位是比特。

为什么这个公式能表示随机变量的不确定性，在于它优良的函数性质，看它的函数图像就知道了：

当p=0或1时，H=0没有确定性，当p=0.5时，不确定性最大。、

条件熵

条件熵表示在已知随机变量X的条件下，随机变量Y的不确定性：

H ( Y ∣ X ) = ∑ i = 1 n p i H ( Y ∣ X ) = − ∑ i = 1 n p i ∑ k = 1 K D i k D i l o g D i k D i H(Y|X)=\sum_{i=1}^{n}p_iH(Y|X)=-\sum_{i=1}^{n}p_i\sum_{k=1}^{K}\frac{D_{ik}}{D_i}log\frac{D_{ik}}{D_i} H(Y∣X)=i=1∑npiH(Y∣X)=−i=1∑npik=1∑KDiDiklogDiDik

其中， p i = P ( X = x i ) p_i=P(X=x_i) pi=P(X=xi)，i表示第i个特征， D i D_i Di表示第i个特征下，样本的个数，k表示类别，即Y的取值。

由于概率通常是数据估计得到的，所以通常称为经验熵和经验条件熵。

经验熵表示对数据集分类的不确定性
经验条件熵表示在特征给定条件下，对数据集分类的不确定性

信息增益

经验熵-经验条件熵即信息增益，也称为互信息。

它表示由于特征而使分类不确定性减少的程度。

信息增益大特征具有更强的分类能力。

H ( D ) = − ( 9 15 l o g 2 9 15 + 6 15 l o g 2 6 15 ) = 0.971 H(D) = -(\frac{9}{15}log_2\frac{9}{15} + \frac{6}{15}log_2\frac{6}{15}) = 0.971 H(D)=−(159log2159+156log2156)=0.971

分别以 A 1 , A 2 , A 3 , A 4 A_1,A_2,A_3,A_4 A1,A2,A3,A4表示特征年龄、是否有工作、是否有房子和信贷情况四个特征，我们比较它们的信息增益。

信息增益比

很快就被人发现，在相同条件下，取值比较多的特征比取值少的特征信息增益大。比如一个变量有2个值，各为1/2，另一个变量为3个值，各为1/3，其实他们都是完全不确定的变量，但是取3个值的比取2个值的信息增益大。

引入信息增益比可以解决这个问题，它是信息增益比和特征熵的比值：

g R ( D , A ) = g ( D , A ) H A ( D ) , H A ( D ) = − ∑ i = 1 n D i D l o g D i D g_R(D,A)=\frac{g(D,A)}{H_A(D)},H_A(D)=-\sum_{i=1}^{n}\frac{D_i}{D}log\frac{D_i}{D} gR(D,A)=HA(D)g(D,A),HA(D)=−∑i=1nDDilogDDi

其中i表示特征A的取值个数。

特征数越多的特征对应的特征熵越大，它作为分母，可以校正信息增益容易偏向于取值较多的特征的问题。

决策树生成：ID3算法

ID3算法就是用信息增益来选择特征，递归的生成决策树。

过程：

根据原始数据集，计算每个特征的信息增益，选择信息增益最大的特征作为根结点
根据该特征的不同取值划分数据集，对不同数据集计算信息增益，并选取特征作为结点
递归的进行步骤2
直到所有特征的信息增益都很小或者没有特征可以选择的时候为止

对上表用ID3算法生成决策树，如图所示：

ID3算法的不足：

ID3没有考虑连续特征，比如长度、密度都是连续值，无法在ID3运用。
信息增益作为标准容易偏向于取值较多的特征的问题。
ID3算法对于缺失值的情况没有做考虑
没有考虑过拟合问题

决策树生成：C4.5算法

针对ID3的不足，提出C4.5算法解决了上述问题

第一个问题不能处理连续特征， C4.5的思路是将连续的特征离散化。比如m个样本的连续特征A有m个值，从小到大排列，则C4.5取相邻两样本值的平均数，一共取得m-1个划分点。对于这m-1个点，分别计算以该点作为二元分类点时的信息增益。选择信息增益最大的点作为该连续特征的二元离散分类点。比如取到的增益最大的点 a t a_t at,则小于 a t a_t at的值为类别1，大于 a t a_t at的值为类别2，这样我们就做到了连续特征的离散化。要注意的是，与离散属性不同的是，如果当前节点为连续属性，则该属性后面还可以参与子节点的特征选择过程。
第二个问题信息增益作为标准容易偏向于取值较多的特征，C4.5改为使用信息增益比作为标准来进行特征选择。
第三个问题没有考虑存在缺失值的情况。

先处理缺失值再构造树。对于某一个有缺失特征值的特征A。C4.5的思路是将数据分成两部分，对每个样本设置一个权重（初始可以都为1），然后划分数据，一部分是有特征值A的数据D1，另一部分是没有特征A的数据D2. 然后对数据D1来计算特征A的信息增益比，最后乘上一个系数，这个系数是无特征A缺失的样本加权后所占加权总样本的比例。那么如何将D2中缺失样本根据特征A的阈值划分呢，这里采用了已有数据的先验概率来更新权重的方法，比如

假设根据有特征A的数据D1计算得到：
- P(特征A=值1) = 2/3（2个"是"，权重都是1）
- P(特征A=值2) = 1/3（1个"否"，权重是1）
缺失数据的划分权重：
- 分配到值1分支：权重 = 1 × (2/3) ≈ 0.667
- 分配到值2分支：权重 = 1 × (1/3) ≈ 0.333
并且这个权重会一直传递下去，由于后续的特征划分。

这样的好处是不会浪费缺失数据。
第四个问题没有考虑过拟合，C4.5采用剪枝。

C4.5的不足

采用多叉树，运算效率不高
基于熵运算，对数运算效率不高
只能用于分类，不能用于回归

决策树的剪枝

决策树生成直到不能分裂为止，导致模型过于复杂，这样的好处是分类准确，但是对未知数据的预测并不正确，即过拟合问题。

剪枝是将已生成的树进行简化的过程，从已生成的树上裁掉一些子树或叶结点，并将其根结点或父结点作为新的叶结点。

过拟合通常在损失函数中加入正则化约束。

损失函数

损失函数用每个叶结点的分类经验熵的和加上正则化项表示。

假设树的叶结点个数为T， α \alpha α是大于0的参数

C α = ∑ t = 1 T N t H t ( Y ) + α T C_\alpha=\sum_{t=1}^{T}N_tH_t(Y)+\alpha T Cα=∑t=1TNtHt(Y)+αT

其中 N t N_t Nt是第t个叶结点的样本个数， H t ( Y ) H_t(Y) Ht(Y)是第t个样本的类别经验熵

H t ( Y ) = − ∑ k N t k N t l o g N t k N t H_t(Y)=-\sum_{k}\frac{N_{tk}}{N_t}log\frac{N_{tk}}{N_t} Ht(Y)=−∑kNtNtklogNtNtk

其中k表示样本中的类别个数

化简得

C α ( T ) = − ∑ t = 1 T ∑ k N t k l o g N t k N t + α T = C + α T C_\alpha(T)=-\sum_{t=1}^{T}\sum_{k}N_{tk}log\frac{N_{tk}}{N_t}+\alpha T=C+\alpha T Cα(T)=−∑t=1T∑kNtklogNtNtk+αT=C+αT

其中C表示预测误差，T表示模型复杂度， α \alpha α用来控制两者之间的影响。较大 α \alpha α促使选择更简单的树，较小 α \alpha α促使选择更复杂的树， α \alpha α为0表示不考虑复杂度只考虑拟合程度。

剪枝

剪枝就是当 α \alpha α确定，选择损失函数最小的模型。

我们假设决策树生成的原始树为A，计算其每个叶结点的经验熵和 C A C_A CA，然后递归的从树的叶结点向上回缩，得到一个剪枝的树B，计算其每个叶结点的经验熵 C B C_B CB，比较 C A C_A CA和 C B C_B CB的大小，选择小的那棵树，然后继续重复剪枝操作，直到不能继续为止。

决策树的生成：CART算法

在讨论C4.5算法的不足时，我们知道其计算效率不高，并且不能研究回归问题，CART算法的提出得以解决，在分类问题上，流程仍然是特征选择、生成决策树和剪枝，其不同在于采用二叉树结构和基尼指数。

基尼指数

基尼指数的意义和熵类似，表示不确定性，但是其不需要计算对数，能加快计算效率。

具体的，在分类问题中，假设有K个类别，第k个类别的概率为 p k p_k pk, 则基尼系数的表达式为

G i n i ( p ) = ∑ k = 1 K p k ( 1 − p k ) = 1 − ∑ k = 1 K p k 2 Gini(p) = \sum\limits_{k=1}^{K}p_k(1-p_k) = 1- \sum\limits_{k=1}^{K}p_k^2 Gini(p)=k=1∑Kpk(1−pk)=1−k=1∑Kpk2

特别的，如果是二分类 G i n i ( p ) = 2 p ( 1 − p ) Gini(p) = 2p(1-p) Gini(p)=2p(1−p)

对于样本D,如果根据特征A的某个值a,把D分成D1和D2两部分，则在特征A的条件下，D的基尼系数表达式为：

G i n i ( D , A ) = ∣ D 1 ∣ ∣ D ∣ G i n i ( D 1 ) + ∣ D 2 ∣ ∣ D ∣ G i n i ( D 2 ) Gini(D,A) = \frac{|D_1|}{|D|}Gini(D_1) + \frac{|D_2|}{|D|}Gini(D_2) Gini(D,A)=∣D∣∣D1∣Gini(D1)+∣D∣∣D2∣Gini(D2)

但是简单归简单，和熵模型的度量方式比，基尼系数对应的误差有多大呢？对于二类分类，基尼系数和熵之半的曲线如下：

特征二分类

对于CART分类树连续值的处理问题，其思想和C4.5是相同的，都是将连续的特征离散化。唯一的区别在于在选择划分点时的度量方式不同，C4.5使用的是信息增益比，则CART分类树使用的是基尼系数。

对于CART分类树离散值的处理问题，采用的思路是不停的二分离散特征。

回忆下ID3或者C4.5，如果某个特征A被选取建立决策树节点，如果它有A1,A2,A3三种类别，我们会在决策树上一下建立一个三叉的节点。这样导致决策树是多叉树。但是CART分类树使用的方法不同，他采用的是不停的二分，还是这个例子，CART分类树会考虑把A分成{A1}和{A2,A3}, {A2}和{A1,A3}, {A3}和{A1,A2}三种情况，找到基尼系数最小的组合，比如{A2}和{A1,A3},然后建立二叉树节点，一个节点是A2对应的样本，另一个节点是{A1,A3}对应的节点。同时，由于这次没有把特征A的取值完全分开，后面我们还有机会在子节点继续选择到特征A来划分A1和A3。这和ID3或者C4.5不同，在ID3或者C4.5的一棵子树中，离散特征只会参与一次节点的建立。

回归树生成

CART引入了解决回归问题的思路，首先，我们要明白，什么是回归树，什么是分类树。两者的区别在于样本输出，如果样本输出是离散值，那么这是一颗分类树。如果果样本输出是连续值，那么那么这是一颗回归树。

除了概念的不同，CART回归树和CART分类树的建立和预测的区别主要有下面两点：

连续值的处理方法不同；
决策树建立后做预测的方式不同。

对于连续值的处理，我们知道CART分类树采用的是用基尼系数的大小来度量特征的各个划分点的优劣情况。这比较适合分类模型，但是对于回归模型，我们使用了方差的度量方式，CART回归树的度量目标是，对于任意划分特征A，对应的任意划分点s两边划分成的数据集D1和D2，求出使D1和D2各自集合的均方差最小，同时D1和D2的均方差之和最小所对应的特征和特征值划分点。

这样的算法通常称为最小二乘回归树生成算法。

对于决策树建立后做预测的方式，上面讲到了CART分类树采用叶子节点里概率最大的类别作为当前节点的预测类别。而回归树输出不是类别，它采用的是用最终叶子的均值或者中位数来预测输出结果。

CART剪枝

在分类问题上，CART和C4.5剪枝的区别在于，使用了基尼指数计算损失函数。

在回归问题上，采用了均方误差来计算损失函数

对应 α \alpha α如何确定，能得到最优的树，下面给出了交叉验证的解决办法：

首先搜索以 T 0 T_0 T0为根结点的原始树，自下而上搜索所有正则化阈值的最小值 α k \alpha_k αk，然后以它为标准再自下而上进行剪枝，得到一棵树 T k T_k Tk，然后再对 T k T_k Tk重复上述步骤，得到一系列的正则化阈值和最优子树，最后采用交叉验证的方式在最优子树集合中找出一棵树及其对应的正则化阈值。

CART算法的不足

无论是ID3, C4.5还是CART,在做特征选择的时候都是选择最优的一个特征来做分类决策，但是大多数，分类决策不应该是由某一个特征决定的，而是应该由一组特征决定的。这样决策得到的决策树更加准确。这个决策树叫做多变量决策树(multi-variate decision tree)。在选择最优特征的时候，多变量决策树不是选择某一个最优特征，而是选择最优的一个特征线性组合来做决策。这个算法的代表是OC1。
如果样本发生一点点的改动，就会导致树结构的剧烈改变。这个可以通过集成学习里面的随机森林之类的方法解决。

总结

算法	支持模型	树结构	特征选择	连续值处理	缺失值处理	剪枝
ID3	分类	多叉树	信息增益	不支持	不支持	不支持
C4.5	分类	多叉树	信息增益比	支持	支持	支持
CART	分类，回归	二叉树	基尼系数，均方差	支持	支持	支持

决策树算法的优点：

简单直观，生成的决策树很直观。
基本不需要预处理，不需要提前归一化，处理缺失值。
使用决策树预测的代价是O(log2m)。 m为样本数。
既可以处理离散值也可以处理连续值。很多算法只是专注于离散值或者连续值。
可以处理多维度输出的分类问题。
相比于神经网络之类的黑盒分类模型，决策树在逻辑上可以得到很好的解释
可以交叉验证的剪枝来选择模型，从而提高泛化能力。
对于异常点的容错能力好，健壮性高。

决策树算法的缺点:

决策树算法非常容易过拟合，导致泛化能力不强。可以通过设置节点最少样本数量和限制决策树深度来改进。
决策树会因为样本发生一点点的改动，就会导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决。
寻找最优的决策树是一个NP难的问题，我们一般是通过启发式方法，容易陷入局部最优。可以通过集成学习之类的方法来改善。
有些比较复杂的关系，决策树很难学习，比如异或。这个就没有办法了，一般这种关系可以换神经网络分类方法来解决。
如果某些特征的样本比例过大，生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善。