【集成学习】Bagging算法详解及代码实现

文章目录

[1. Bagging集成学习算法](#1. Bagging集成学习算法)
- [1.1 简介](#1.1 简介)
- [1.2 基本步骤](#1.2 基本步骤)
- [1.3 Bagging优缺点](#1.3 Bagging优缺点)
- [1.4 随机森林：Bagging的一个重要应用](#1.4 随机森林：Bagging的一个重要应用)
- [1.5 总结](#1.5 总结)
[2. Python代码实现](#2. Python代码实现)
[3. 如何理解偏差与方差](#3. 如何理解偏差与方差)
- [3.1 偏差（Bias）](#3.1 偏差（Bias）)
- [3.2 方差（Variance）](#3.2 方差（Variance）)
- [3.3 方差与偏差的权衡](#3.3 方差与偏差的权衡)
- [3.4 举例说明](#3.4 举例说明)
- [3.5 如何调整偏差和方差](#3.5 如何调整偏差和方差)
- [3.6 偏差与方差的计算](#3.6 偏差与方差的计算)
[4. Bagging是如何减少方差的？](#4. Bagging是如何减少方差的？)

集成学习（Ensemble Learning）是一种通过结合多个模型的预测结果来提高整体预测性能的技术。常见的集成学习框架有：Bagging、Boosting、Stacking。每种方法都有其独特的优势和适用场景，本文主要聚焦于介绍 Bagging 算法

1. Bagging集成学习算法

1.1 简介

Bagging 全称叫做 Bootstrap aggregating，通过训练多个相同类型的基学习器，并将他们的预测结果进行集成，从而提高模型整体性能的集成学习方法。Bagging的核心思想是通过并行训练多个基学习器，每个基学习器在训练集的不同子集上进行训练，最终通过这些基学习器的预测结果进行平均（回归任务）或投票（分类任务）得到最终预测结果。

Bagging基本特点如下：

训练n个模型，每个模型在不同训练子集上独立训练
所有基学习器的预测结果进行平均（回归任务）或投票（分类任务）得到最终决策。
采用 bootstrap 采样（有放回采样）从原始数据集中随机抽取样本，通常每个基学习器都基于不同的数据子集进行训练。对于每个基学习器来说，大约有63%的样本会被重复采样到，而剩余的样本则可用作模型的验证集。

1.2 基本步骤

数据采样： 从原始数据中通过自助法随即有放回的抽取多个子集，每个子集的大小与原始数据相同。由于是有放回的抽样，所以每个子集可能包含重复的数据点，而一些数据点可能未被抽取
训练多个基学习器： 使用不同的子集训练多个基学习器。常见的基学习器是决策树，但也通常可以是其它模型算法
集成预测： 对于分类问题，通过投票的方式决定最终分类结果，对于回归问题，则通常通过取平均的方式得到最终的预测结果

1.3 Bagging优缺点

优点：

降低模型的方差 : 通过训练多个基学习器，Bagging能够有效减少模型的方差，特别是在高方差模型（如决策树）上尤为有效。通过集成多个基学习器，能够平滑预测结果，从而提高模型的稳定性，减少过拟合
并行化 ：Bagging中的每个基学习器都可以独立训练，因而具有很好的并行化特性。可以充分利用多核处理器和分布式计算平台，显著加快训练过程
使用性强 ：Bagging方法对数据的异常值和噪声具有较好的鲁棒性。由于每个基学习器只依赖于部分数据，因此个别样本的噪声不会对最终结果产生过大影响

缺点：

无法减少模型的偏差： 虽然Bagging能够减少方差，但对于已经有较高偏差的模型（如线性模型），Bagging无法显著提升性能，可能不会有效提高模型的整体准确性。

1.4 随机森林：Bagging的一个重要应用

随机森林（Random Forest）是Bagging算法的一个重要应用，它通过使用决策树作为基学习器并结合Bagging技术来构建集成模型。

随机森林不仅利用了Bagging的思想，还在每次进行bootstrap采样时，额外对特征进行随机选择。具体来说，在每个决策树的节点分裂时，随机选择一部分特征进行训练，这种做法进一步增强了不同决策树之间的差异性
通过引入特征的随机选择，随机森林避免了模型过度拟合，提高了决策树之间的多样性，从而增强了集成模型的性能和稳定性

1.5 总结

适用于高方差模型： Bagging非常适合用于那些本身方差较高、不稳定的模型（如决策树）。通过集成多个模型，能够减少过拟合，增强模型的鲁棒性
对噪声具有鲁棒性： 由于每个基学习器都在不同的数据子集上进行训练，因此Bagging能够有效地应对数据中的噪声和异常值
不适用于高偏差模型： 对于一些本身偏差较大的模型（如线性回归），Bagging无法显著提高其性能，因为它主要减少的是方差，而不改变偏差。

2. Python代码实现

python 复制代码

class Bagging:
    def __init__(self, base_learner, n_learners):
        self.learners = [clone(base_learner) for _ in range(n_learners)]
    
    def fit(self, X, y):
        for learner in self.learners:
            examples = np.random.choice(
                np.arange(len(X)), int(len(X)), replace=True)
            
            learner.fit(X.iloc[examples, :], y.iloc[examples])

    def predict(self, X):
        preds = [learner.predict(X) for learner in self.learners]
        return np.array(preds).mean(axis=0)

3. 如何理解偏差与方差

在机器学习中，偏差（Bias）和方差（Variance）是衡量模型表现的两个重要概念，它们分别衡量了模型的预测误差和模型对数据变化的敏感度。这两个概念通常用于描述模型的泛化能力和在不同数据集上的表现，理解它们有助于分析和改进模型。

3.1 偏差（Bias）

偏差是指模型的预测结果与真实值之间的差距，反映了模型在拟合训练数据时的系统性误差。简而言之，偏差衡量的是模型的假设与真实数据之间的差异。

高偏差：如果模型的偏差较高，说明它的预测结果与真实值之间存在较大的系统性误差，模型的假设或结构太简单，无法捕捉到数据的复杂性，简单的模型通常会有较高的偏差。
低偏差：如果模型的偏差较低，说明模型能够较好地拟合数据，预测结果接近真实值。复杂的模型通常会有较低的偏差，但可能会导致过拟合。

3.2 方差（Variance）

方差是指模型对训练数据集波动的敏感度。方差大的模型过于关注训练数据，在捕捉潜在模式的同时，也捕捉到了噪声。这种现象被称为过度拟合，即模型在训练数据上表现异常出色，但无法推广到新的、未见过的数据。方差大会导致模型过于复杂，从而降低预测的可靠性。

高方差：如果模型的方差较高，说明它对训练数据集的变化非常敏感，即在不同的训练集上表现差异较大。高方差的模型容易过拟合训练数据，对训练集中的细节（包括噪声）进行了过度拟合
低方差：如果模型的方差较低，说明它的预测结果在不同的训练集之间比较一致，表现出较强的泛化能力

方差的影响：

高方差通常意味着过拟合（Overfitting），即模型过度拟合训练集的噪声和异常值，无法在新的数据上良好表现
低方差通常意味着模型具有较好的泛化能力，但如果方差过低，可能表示模型过于简单

3.3 方差与偏差的权衡

偏差和方差之间通常存在权衡关系。在实际应用中，我们常常需要在偏差和方差之间找到一个平衡点，以获得最佳的模型性能。这种权衡被称为偏差-方差权衡（Bias-Variance Tradeoff）。

高偏差、低方差： 模型过于简单，无法拟合数据的复杂性，容易导致欠拟合
低偏差、高方差： 模型过于复杂，容易拟合训练数据中的噪声，导致过拟合
适中偏差、适中方差： 模型能够捕捉数据的规律，既不缺乏复杂性，也不对训练数据过度敏感，通常是最佳的情况

3.4 举例说明

假设现在正在做一个分类问题，模型的目标是预测某个数据点属于哪个类别

高偏差例子：使用一个线性模型（例如线性回归）来解决一个非常复杂的非线性分类问题。由于模型无法捕捉到数据的非线性关系，预测结果和真实标签之间存在很大的差异。这种情况下，模型的偏差很高，方差很低，属于欠拟合。
高方差的例子：使用一个非常复杂的模型（例如深度神经网络或非常深的决策树）来拟合训练数据。虽然训练误差很小，但当你用新数据测试时，模型的表现大幅下降，因为它在训练过程中学到了过多的噪声和细节。此时，模型的方差较高，偏差较低，属于过拟合。

3.5 如何调整偏差和方差

降低偏差：

增加模型的复杂度，例如使用非线性模型、增加模型的参数数量、增加更多的特征等
提供更多的训练数据，帮助模型学习数据中的复杂关系
减少正则化的强度，允许模型学习更多的细节

降低方差：

减少模型复杂度，例如使用简单的模型（如线性回归、朴素贝叶斯等），避免过度拟合
使用集成学习方法（如Bagging、Boosting等），通过多个模型的集成来减少方差
增加训练数据量，以使模型能够更好地学习数据的整体规律而非细节
使用正则化技术来限制模型复杂度

3.6 偏差与方差的计算

E [ ( y ^ − y ) 2 ] = ( E [ y ^ ] − y ) 2 ⏟ 偏差 2 + E [ ( y ^ − E [ y ^ ] ) 2 ] ⏟ 方差 + Var ( y ) ⏟ 噪声 \mathbb{E}[(\hat{y} - y)^2] = \underbrace{(\mathbb{E}[\hat{y}] - y)^2}{\text{偏差}^2} + \underbrace{\mathbb{E}[(\hat{y} - \mathbb{E}[\hat{y}])^2]}{\text{方差}} + \underbrace{\text{Var}(y)}_{\text{噪声}} E[(y^−y)2]=偏差2 (E[y^]−y)2+方差 E[(y^−E[y^])2]+噪声 Var(y)

其中：

y ^ \hat{y} y^ 是模型的预测值。
y y y 是真实值。
E [ y ^ ] \mathbb{E}[\hat{y}] E[y^] 是模型预测值的期望。

4. Bagging是如何减少方差的？

方差是一个随机变量与其均值之间的平方偏差的期望值，表达式如下：
V a r ( X ) = E ( X − E ( X ) ) 2 Var(X)=E(X-E(X))^2 Var(X)=E(X−E(X))2

V a r ( X ) = E ( X 2 ) − ( E ( X ) ) 2 Var(X) = E(X^2) - (E(X))^2 Var(X)=E(X2)−(E(X))2

假设有多个模型的预测结果 X 1 , X 2 , X 3 . . . . . . X n X_1,X_2,X_3......X_n X1,X2,X3......Xn，每个变量的方差为 σ 2 \sigma^2 σ2。每个变量对应于一个弱学习器的预测结果，那么我们对这些弱学习器进行平均:

X ˉ = X 1 + X 2 + . . . + X n n \bar X = \frac {X_1+X_2+...+X_n}{n} Xˉ=nX1+X2+...+Xn

由于 V a r ( a X ) = a 2 V a r ( X ) Var(aX)=a^2Var(X) Var(aX)=a2Var(X)，我们有：

V a r ( X ˉ ) = V a r ( X 1 + X 2 + . . . + X n n ) = 1 n 2 V a r ( X 1 + X 2 + . . . . + X n ) Var(\bar X) = Var(\frac {X_1+X_2+...+X_n}{n}) = \frac 1 {n^2}Var(X_1+X_2+....+X_n) Var(Xˉ)=Var(nX1+X2+...+Xn)=n21Var(X1+X2+....+Xn)

由于每个 X i X_i Xi 是独立的，我们可以写成：
1 n 2 V a r ( X 1 + X 2 + . . . + X n ) = 1 n 2 ( V a r ( X 1 ) + V a r ( X 2 ) + . . . + V a r ( X n ) ) = n σ 2 n 2 = σ 2 n \frac 1 {n^2}Var(X_1+X_2+...+X_n) = \frac {1}{n^2}(Var(X_1)+Var(X_2)+...+Var(X_n)) = \frac {n\sigma^2}{n^2} = \frac {\sigma^2}{n} n21Var(X1+X2+...+Xn)=n21(Var(X1)+Var(X2)+...+Var(Xn))=n2nσ2=nσ2

因此，我们有：
V a r ( X ˉ ) = σ 2 n < σ 2 Var(\bar X) = \frac {\sigma^2}{n} < \sigma^2 Var(Xˉ)=nσ2<σ2

换句话说，对一组观察值取平均可以减少方差。因此，减少方差并提高预测准确性的自然方法是从总体中抽取多个训练集，使用每个训练集构建一个单独的预测模型，然后对结果进行平均。