1. 推导过程

建立提升树的加法模型
- 假设构成第i个弱分类器的参数为 θ i θ_i θi，第i个弱分类器则表示为 T ( x , θ i ) T(x,θ_i) T(x,θi)
- 当前弱分类器若表示为 T ( x , θ m ) T(x,θ_m) T(x,θm)，强分类器则表示为: f m ( x ) = f m − 1 ( x ) + T ( x , θ m ) f_m(x) = f_{m-1}(x)+T(x,θ_m) fm(x)=fm−1(x)+T(x,θm)
- 预测结果为 y p r e = f m ( x ) = f m − 1 ( x ) + T ( x , θ m ) y_{pre}=f_m(x)=f_{m-1}(x)+T(x,θ_m) ypre=fm(x)=fm−1(x)+T(x,θm)
损失函数Loss采用平方误差损失函数
- 使用CART回归树作为弱分类器，那么每次选取的特征及特征值，都会使平方误差损失函数达到最低
- 但弱分类器是不需要完全CART回归树一次性就把所有特征及特征值都遍历训练完成的，只需要挑选平方损失函数最低的那个特征及特征值
  弱分类器，只进行一个树杈的划分
- 弱分类器内部的平方损失函数，是取二分树杈的左右两个数据集的平方损失之和最小
  L o s s t r e e = ∑ ( y i l e f t − y ˉ l e f t ) 2 + ∑ ( y j r i g h t − y ˉ r i g h t ) 2 Loss_{tree} = ∑(y_i^{left}-\bar{y}{left})^2+ ∑(y_j^{right}-\bar{y}{right})^2 Losstree=∑(yileft−yˉleft)2+∑(yjright−yˉright)2
- 强分类器的平方损失函数，是取所有样本的预测值与真实值的平方损失之和最小
  L o s s = ∑ ( y i − y i p r e ) 2 Loss = ∑(y_i-y_i^{pre})^2 Loss=∑(yi−yipre)2
  y i 表示真实值， y i p r e 表示预测值 y_i表示真实值，y_i^{pre}表示预测值 yi表示真实值，yipre表示预测值
- 根据 y p r e = f m ( x ) = f m − 1 ( x ) + T ( x , θ m ) y_{pre}=f_m(x)=f_{m-1}(x)+T(x,θ_m) ypre=fm(x)=fm−1(x)+T(x,θm)，可得
  - L o s s = ∑ ( y i − f m − 1 ( x ) − T ( x , θ m ) ) 2 Loss=∑(y_i-f_{m-1}(x)-T(x,θ_m))^2 Loss=∑(yi−fm−1(x)−T(x,θm))2
  - 其中 y i − f m − 1 ( x ) y_i-f_{m-1}(x) yi−fm−1(x)表示上次强分类器的预测值与实际值的差，一般叫做残差（残留的差值）
  - 我们可以设为 r i = y i − f m − 1 ( x ) r_i = y_i-f_{m-1}(x) ri=yi−fm−1(x)，表示残差
  - 那么要使Loss达到最小，只需要当前的弱分类器，尽可能地拟合残差即可， L o s s = ∑ ( r i − T ( x , θ m ) ) 2 Loss=∑(r_i-T(x,θ_m))^2 Loss=∑(ri−T(x,θm))2
  - 那么我们无需求出当前弱分类器的参数 θ，只要计算出每次的强分类器后的残差，再新增一个弱分类器，对残差进行CART回归树的拟合即可
每次只对残差拟合，直到Loss函数达到某个极小的阈值、特征及特征值已完全分完了，或达到迭代次数即可

机器学习——boosting之提升树（未完）

1. 推导过程

2. 程序设计