CART算法：决策树的双面剑

一引言

上一篇文章决策树算法：ID3与C4.5的对比分析中介绍了ID3和C4.5两种决策树算法，这两种决策树都只能用于分类问题，而CART（classification and regression tree）决策树算法它可以处理分类问题（Classification）和回归问题（Regression）。

CART算法生成的决策树是二叉树形式，即每个内部节点都只有两个分支。

与ID3算法和C4.5算法相比，CART算法生成的决策树是二叉树形式，即每个内部节点都只有两个分支。也就是说在根据特征属性分裂数据集时，无论该特征属性有多少个可能取值，都只有两种选择------'是'和'否'，以上文中判断是否是程序员数据集为例，如果根据近视程度进行分裂，可以将数据集分为{'轻微'}和{'中等'，'严重'}两个数据集（当然也可以是其两种组合）然后在进一步迭代中进一步细化分数据集。

下面，我们分别说说CART算法如何解决分类问题和回归问题。

二分类问题

对于分类问题，CART算法采用基尼指数作为最优分裂特征属性选择标准。

先来说说基尼指数，与熵一样，基尼指数越小则数据集不确定性越小，代表着数据集纯度越高。给定数据集 X X X包含 L L L个分类，那么数据集 X X X的基尼指数为：

G i n i ( X ) = ∑ l L ∣ X l ∣ ∣ X ∣ ( 1 − ∣ X l ∣ ∣ X ∣ ) = 1 − ∑ l = 1 L ( ∣ X l ∣ ∣ X ∣ ) 2 Gini(X) = \sum\limits_l^L {\frac{{|{X_l}|}}{{|X|}}(1 - \frac{{|{X_l}|}}{{|X|}})} = 1 - {\sum\limits_{l = 1}^L {\left( {\frac{{|{X_l}|}}{{|X|}}} \right)} ^2} Gini(X)=l∑L∣X∣∣Xl∣(1−∣X∣∣Xl∣)=1−l=1∑L(∣X∣∣Xl∣)2

假设 A A A是数据集 X X X中包含若干个可能取值的一个特征属性， a a a是 A A A的其中一个可能取值，将数据集 X X X按照 a a a进行划分，就可以分为两个数据集，分别是 X 1 = { x ∈ X ∣ x A = a } {X_1} = \left\{ {x \in X|{x_A} = a} \right\} X1={x∈X∣xA=a}和 X 2 = { x ∈ X ∣ x A ≠ a } {X_2} = \left\{ {x \in X|{x_A} \ne a} \right\} X2={x∈X∣xA=a}，那么在特征 A A A下，集合 X X X的基尼指数为：

G i n i ( X , A ) = ∣ X 1 X ∣ G i n i ( X 1 ) + ∣ X 2 X ∣ G i n i ( X 2 ) Gini(X,A) = \left| {\frac{{{X_1}}}{X}} \right|Gini({X_1}) + \left| {\frac{{{X_2}}}{X}} \right|Gini({X_2}) Gini(X,A)= XX1 Gini(X1)+ XX2 Gini(X2)

接下来，我们通过实例演示如果应用基尼指数选择最优分裂特征属性。还是使用上篇博客中介绍ID3算法时使用过的数据集，如下所示。先来计算三个特征属性各个可能取值的基尼指数。

对属性 A A A的"穿格子衬衫"这个值计算基尼指数：

G i n i ( X , A 1 ) = 5 10 × { 2 × 4 5 × 1 5 } + 5 10 × { 2 × 3 5 × 2 5 } = 0.4 Gini(X,{A_1}) = \frac{5}{{10}} \times \left\{ {2 \times \frac{4}{5} \times \frac{1}{5}} \right\} + \frac{5}{{10}} \times \left\{ {2 \times \frac{3}{5} \times \frac{2}{5}} \right\} = 0.4 Gini(X,A1)=105×{2×54×51}+105×{2×53×52}=0.4

对属性 A A A的"不穿格子衬衫"这个值计算基尼指数，由于只有两个属性，无论按照哪个属性来计算结果都一样，所以：

G i n i ( X , A 2 ) = G i n i ( X , A 1 ) = 0.4 Gini(X,{A_2}){\text{ = }}Gini(X,{A_1}) = 0.4 Gini(X,A2) = Gini(X,A1)=0.4

对属性 B B B的"严重"这个值计算基尼指数：

G i n i ( X , B 1 ) = 3 10 × { 2 × 2 3 × 1 3 } + 7 10 × { 2 × 5 7 × 2 7 } = 0.42 Gini(X,{B_1}) = \frac{3}{{10}} \times \left\{ {2 \times \frac{2}{3} \times \frac{1}{3}} \right\} + \frac{7}{{10}} \times \left\{ {2 \times \frac{5}{7} \times \frac{2}{7}} \right\} = 0.42 Gini(X,B1)=103×{2×32×31}+107×{2×75×72}=0.42

对属性 B B B的"中等"这个值计算基尼指数：

G i n i ( X , B 2 ) = 4 10 × { 2 × 4 4 × 0 4 } + 6 10 × { 2 × 3 6 × 3 6 } = 0.3 Gini(X,{B_2}) = \frac{4}{{10}} \times \left\{ {2 \times \frac{4}{4} \times \frac{0}{4}} \right\} + \frac{6}{{10}} \times \left\{ {2 \times \frac{3}{6} \times \frac{3}{6}} \right\} = 0.3 Gini(X,B2)=104×{2×44×40}+106×{2×63×63}=0.3

对属性 B B B的"轻微"这个值计算基尼指数：

G i n i ( X , B 3 ) = 3 10 × { 2 × 1 3 × 2 3 } + 7 10 × { 2 × 6 7 × 1 7 } = 0.46 Gini(X,{B_3}) = \frac{3}{{10}} \times \left\{ {2 \times \frac{1}{3} \times \frac{2}{3}} \right\} + \frac{7}{{10}} \times \left\{ {2 \times \frac{6}{7} \times \frac{1}{7}} \right\} = 0.46 Gini(X,B3)=103×{2×31×32}+107×{2×76×71}=0.46

对属性 C C C的"严重"这个值计算基尼指数：

G i n i ( X , C 1 ) = 3 10 × { 2 × 0 3 × 3 3 } + 7 10 × { 2 × 4 7 × 3 7 } = 0.34 Gini(X,{C_1}) = \frac{3}{{10}} \times \left\{ {2 \times \frac{0}{3} \times \frac{3}{3}} \right\} + \frac{7}{{10}} \times \left\{ {2 \times \frac{4}{7} \times \frac{3}{7}} \right\} = 0.34 Gini(X,C1)=103×{2×30×33}+107×{2×74×73}=0.34

对属性 C C C的"中等"这个值计算基尼指数：

G i n i ( X , C 2 ) = 3 10 × { 2 × 1 3 × 2 3 } + 7 10 × { 2 × 5 7 × 2 7 } = 0.42 Gini(X,{C_2}) = \frac{3}{{10}} \times \left\{ {2 \times \frac{1}{3} \times \frac{2}{3}} \right\} + \frac{7}{{10}} \times \left\{ {2 \times \frac{5}{7} \times \frac{2}{7}} \right\} = 0.42 Gini(X,C2)=103×{2×31×32}+107×{2×75×72}=0.42

对属性 C C C的"轻微"这个值计算基尼指数：

G i n i ( X , C 3 ) = 3 10 × { 2 × 1 3 × 2 3 } + 7 10 × { 2 × 6 7 × 1 7 } = 0.46 Gini(X,{C_3}) = \frac{3}{{10}} \times \left\{ {2 \times \frac{1}{3} \times \frac{2}{3}} \right\} + \frac{7}{{10}} \times \left\{ {2 \times \frac{6}{7} \times \frac{1}{7}} \right\} = 0.46 Gini(X,C3)=103×{2×31×32}+107×{2×76×71}=0.46

可见，属性 B B B的"中等"取值时具有最小的基尼指数，所以这个值作为当前数据集的最优分裂特征属性值。分裂后，可以获得两个数据集，对获得的数据集继续计算基尼指数，选择最优分裂特征属性值，如此迭代形成一颗完整的决策树。

对于连续型特征属性，可以参照C4.5算法对连续型特征属性的处理方法，只不过在CART算法中是计算基尼指数。

三回归问题

此时，我们研究的已经是回归问题了，所以，请转变思路，对于任意一个 x ∈ X x \in X x∈X，经过决策树后的输出 f ( x ) f(x) f(x)的可能取值已经不再像之前的分类决策树那样， f ( x ) f(x) f(x)的取值只可能是在 X X X中出现过的那几种取值，回归树最后的输出 f ( x ) f(x) f(x)可能是之前没有出现过的，甚至连可能值的个数都不固定。所以，对于回归树，首先解决的问题就是如何确定 f ( x ) f(x) f(x)的可能值。

对于数据集 X X X，假设我们在其特征属性 A A A上取一个值 a a a将数据集划分成两类：

X 1 = { x ∣ x A ⩽ a } {X_1} = \{ x|{x_A} \leqslant a\} X1={x∣xA⩽a}

X 2 = { x ∣ x A > a } {X_2} = \{ x|{x_A} > a\} X2={x∣xA>a}

在这两个类上的输出值 f ( x ) f(x) f(x)分别为 c 1 {c_1} c1和 c 2 {c_2} c2，那么根据特征属性 A A A的值 a a a对 X X X进行划分，所产生的总误差是：

L o s s A , a = ∑ x ∈ X 1 ( y − c 1 ) 2 + ∑ x ∈ X 2 ( y − c 2 ) 2 Los{s_{A,a}} = \sum\limits_{x \in {X_1}} {(y - {c_1}} {)^2} + \sum\limits_{x \in {X_2}} {(y - {c_2}} {)^2} LossA,a=x∈X1∑(y−c1)2+x∈X2∑(y−c2)2

式中， y y y是 x x x对应的真实值。我们的目标就是使得 L o s s A , a Los{s_{A,a}} LossA,a最小化时的 c 1 {c_1} c1和 c 2 {c_2} c2，目标函数为：

min ⁡ ∑ x ∈ X 1 ( y − c 1 ) 2 + min ⁡ ∑ x ∈ X 2 ( y − c 2 ) 2 {\min \sum\limits_{x \in {X_1}} {{{(y - {c_1})}^2}} + \min \sum\limits_{x \in {X_2}} {{{(y - {c_2})}^2}} } minx∈X1∑(y−c1)2+minx∈X2∑(y−c2)2

那么，当 c 1 {c_1} c1和 c 2 {c_2} c2取什么值的的时候 L o s s A , a Los{s_{A,a}} LossA,a最小呢？根据最小二乘的性质可知，当 c 1 {c_1} c1和 c 2 {c_2} c2分为为 X 1 {X_1} X1和 X 2 {X_2} X2中所有 y y y的平均值的时候 c 1 {c_1} c1和 c 2 {c_2} c2去的最小值，即：

c i = a v e ( y ∣ x ∈ X i ) {c_i} = ave(y|x \in {X_i}) ci=ave(y∣x∈Xi)

所以，如果根据 a a a划分之后得到的是叶子结点，那么最终输出的值就是所属样本子集所有 y y y的平均值。
f ( x ) = c i = a v e ( y ∣ x ∈ X i ) f(x)={c_i} = ave(y|x \in {X_i}) f(x)=ci=ave(y∣x∈Xi)

对数如何确定输出值的问题，就已经解决了。接下来还剩两个个问题需要解决，那就是选择哪个属性作为最优分割特征属性以及选择哪个值作为最佳的分割点。

对于这个问题，可以通过遍历数据集各特征属性的可能取值的方式来解决：对数据集 X X X中各特征属性 A A A，计算其所有取值 a a a下的 L o s s A , a Los{s_{A,a}} LossA,a，然后对比所有 L o s s A , a Los{s_{A,a}} LossA,a，取值最小的 L o s s A , a Los{s_{A,a}} LossA,a所对应的特征属性 A A A为当前最优分裂特征属性， a a a为最佳分裂点。

至此，如何确定各分支的输出值、如何选择最优分割特征属性和分割点的问题都已解决，最后总结一下CART算法在回归问题中的决策树构建流程：

（1）对当前数据集 X X X，计算所有特征属性 A A A下所有取值 a a a作为分割点时的最小 L o s s A , a Los{s_{A,a}} LossA,a；

（2）对比所有 L o s s A , a Los{s_{A,a}} LossA,a，选择最小的 L o s s A , a Los{s_{A,a}} LossA,a所对应的特征属性 A A A为当前最优分裂特征属性， a a a为最佳分裂点将数据集划分都左右两个子树中；

（3）对左右两个子树的数据集重复（1）、（2）步骤继续划分，直到节点中数据集满足指定条件则决策树构建完成。

四树剪枝

无论是面对分类问题，还是回归问题，最终生成的树都有可能过于复杂，容易发生过拟合的情况，所以决策树构建完成后，有必要进一步完成数剪枝。

本文代价复杂度剪枝 Cost-Complexity Pruning(CCP) 方法，过程如下：

输入：CART算法生成的决策树 T 0 T_0 T0

输出：剪枝后的最优决策树 T α {T_\alpha } Tα

（1）令 k = 0 k=0 k=0， T = T 0 T=T_0 T=T0， $\\alpha = + \\infty ；（ 2 ）自上而下地对各内部节点计算；（2）自上而下地对各内部节点计算；（2）自上而下地对各内部节点计算C({T_t}) ，，，\|{T_t}\|$ 以及

g ( t ) = C ( t ) − C ( T t ) ∣ T t ∣ − 1 g(t) = {{C(t) - C({T_t})} \over {|{T_t}| - 1}} g(t)=∣Tt∣−1C(t)−C(Tt)

α = min ⁡ ( α , g ( t ) ) \alpha = \min (\alpha ,g(t)) α=min(α,g(t))

其中， T t T_t Tt表示以 t t t为根节点的子树， C ( t ) {C(t)} C(t)是对 t t t进行剪枝后对训练数据集的预测误差， C ( T t ) {C({T_t})} C(Tt)是对训练数据集的预测误差， ∣ T t ∣ {|{T_t}|} ∣Tt∣是 T t T_t Tt的叶子结点个数；

（3）自上而下地访问内部节点 t t t，如果有 g ( t ) = α g(t)=\alpha g(t)=α，则对 t t t进行剪枝，并对叶子结点 t t t以多数表决法决定输出，得到树 T T T；

（4）令 k = k + 1 k=k+1 k=k+1， α k = α {\alpha _k} = \alpha αk=α， T k = T {T_k} = T Tk=T；

（5）如果 T T T不是由根节点单独构成的树，则回到步骤（3）；

（6）采用交叉验证法在子树序列 T 0 , T 1 , ⋯ , T k = T {T_0},{T_1}, \cdots ,{T_k} = T T0,T1,⋯,Tk=T选取最优的子树 T α {T_\alpha } Tα。

要理解CART决策树的整个剪枝过程，关键是明白 g ( t ) g(t) g(t)的含义，对于一颗理想的决策树，我们当然希望预测误差越小越好，树的规模也越小越好，但是两者却不能两全，因为往往预测误差随着树规模的增大而减小，所以单独考虑预测误差变化或者树规模变化都不合适，最好是选择一个衡量标准能够同时考虑到预测误差变化量和树规模变化，例如两者的比值。

仔细 g ( t ) g(t) g(t)的计算发现，分子是剪枝前后预测误差相减，也就是预测误差变化量，分子是剪枝前后叶子结点数的变化量，所以我们可以认为两者的比值就是树 t t t每个叶子节点所带来的的预测误差的变化量，或者说树 t t t所带来的的预测误差变化率------这就是 g ( t ) g(t) g(t)的含义。

为什么每次对 g ( t ) g(t) g(t)最小的节点进行剪枝呢？因为 g ( t ) g(t) g(t)越小代表对 t t t对整个决策树的作用越小，对其进行剪枝对决策树的准确率影响也是最想的，当然应该优先被剪枝。

如果还不明白，那么通过下面的例子来理解吧。

有下面这个坐标中中的数据集，以及根据数据集构建好的决策树，如下图所示：

此时， α 1 = 0 {\alpha _1} = 0 α1=0，树中共有3个节点，对每个节点分别计算其 g ( t ) g(t) g(t)：

t 1 t_1 t1、 t 2 t_2 t2节点的 g ( t ) g(t) g(t)最小，我们选择剪枝少的节点，也就是 t 3 t_3 t3进行剪枝,并且令 α 2 = 1 8 {\alpha _2} = {1 \over 8} α2=81。剪枝后决策树如下：

剩下两个节点，继续计算每一个节点的 g ( t ) g(t) g(t):

显然， t 2 t_2 t2的 g ( t ) g(t) g(t)更小，所以对 t 2 t_2 t2进行剪枝，并令 α 3 = 1 8 {\alpha _3} = {1 \over 8} α3=81：

这时候仅剩下一个 t 1 t_1 t1，计算后有 g ( t 3 ) = 1 4 g({t_3}) = {1 \over 4} g(t3)=41，所以 α 4 = 1 4 {\alpha _4} = {1 \over 4} α4=41

完成上述所有计算后，我们得到序列 α 0 = 0 , α 2 = 1 8 , α 3 = 1 8 , α 4 = 1 4 {\alpha _0} = 0,{\alpha _2} = {1 \over 8},{\alpha _3} = {1 \over 8},{\alpha _4} = {1 \over 4} α0=0,α2=81,α3=81,α4=41，以及对应的子树。接下来剩余的工作就是利用独立的验证数据集计算每个子树的平方误差或者基尼指数，选择误差最小的那个子树作为最优的剪枝后的树。

五总结

对3种决策树算法做一个简单对比总结：

之前我们已经知道了逻辑回归、SVM等多种分类算法，相比之下：

决策树的思路简单易懂，浅层的树可解释性很好，并且易于可视化，这种特点使得其颇受一些传统行业的青睐；
同时，决策树对数据分布没有假设，且可以处理离散型数据和连续型数据，而之前那几种分类器显然对连续型数据更友善；
决策树可以直接实现多分类；
对批量数据预测速度比较快，因为CART二叉树的结果，其预测的时间复杂度为 O ( l o g 2 N ) O(log_2N) O(log2N)，其中 N N N为数据量。

决策树还是有其局限性及缺点的，包括：

决策树每次用一个特征分裂，容易忽略特征间的相互关联，这个问题可以通过多变量决策树来优化；
决策树容易发生过拟合，需要花很大功夫来调整其结构如剪枝等来控制；
决策树容易因为样本的小的变化而过分改变其结构，使模型稳定性和抗震荡性差，这个问题可使用集成模型来优化；
对缺失值的处理不够好等。

CART算法：决策树的双面剑

一 引言

二 分类问题

三 回归问题

四 树剪枝

五 总结

一引言

二分类问题

三回归问题

四树剪枝

五总结