【干货分享】Boosting算法简单案例

Boosting算法是一种集成学习方法，通过逐步迭代训练弱分类器，并通过加权组合它们的预测结果来构建一个强分类器。

下面是Boosting算法（以AdaBoost为例）的详细过程和一个案例：

a. 训练一个弱分类器：使用当前样本权重训练一个弱分类器，例如决策树桩（仅有一个分裂节点的决策树）。

b. 计算分类器误差：计算弱分类器在训练集上的误差，通过比较分类器的预测结果和实际标签。

c. 计算分类器权重：基于分类器的误差，计算分类器的权重。误差越小的分类器权重越大，表示分类器的预测结果对于纠正错误更有权威性。

d. 更新样本权重：根据分类器的权重和分类器的预测结果，更新每个样本的权重。被错误分类的样本权重增加，被正确分类的样本权重减少。

e. 归一化样本权重：将样本权重归一化，使得所有样本的权重之和为1。

下面是一个简单的AdaBoost算法的计算实例，假设我们有一个二元分类问题，数据集包含6个样本和2个特征（X1和X2），目标变量为类别标签（Y）：

| 样本 | X1 | X2 | Y |

|------|----|----|---|

| 1 | 1 | 2 | 0 |

| 2 | 2 | 1 | 0 |

| 3 | 3 | 3 | 1 |

| 4 | 4 | 2 | 1 |

| 5 | 3 | 4 | 0 |

| 6 | 5 | 5 | 1 |

我们将构建一个包含3个弱分类器的AdaBoost模型。

a. 弱分类器1：使用当前样本权重训练一个弱分类器。

在第一次迭代中，我们选择一个决策树桩作为弱分类器，它选择最佳的特征和阈值进行二元分类。

b. 计算分类器误差：计算弱分类器在训练集上的误差。

c. 计算分类器权重：基于分类器的误差，计算分类器的权重。

d. 更新样本权重：根据分类器的权重和分类器的预测结果，更新每个样本的权重。

样本1、2、3和5的权重由1/6增加到1/6 * exp(0.4236) ≈ 0.1889。

样本4和6的权重由1/6减少到1/6 * exp(-0.4236) ≈ 0.0625。

e. 归一化样本权重：将样本权重归一化，使得所有样本的权重之和为1。

f. 弱分类器2和弱分类器3的训练过程与弱分类器1类似，根据更新后的样本权重训练分类器并计算权重。

强分类器的预测结果由每个弱分类器的预测结果乘以其对应的权重，然后取加权结果的符号作为最终的预测类别。

假设弱分类器1、弱分类器2和弱分类器3的权重分别为0.4236、0.5432和0.6789，它们的预测结果分别为[-1, -1, 1, 1, -1, 1]，则强分类器的预测结果为：

加权结果 = 0.4236 * (-1) + 0.5432 * (-1) + 0.6789 * 1 ≈ 0.6987

最终的预测类别为sign(0.6987) = 1。