【集成学习】Bagging算法详解及代码实现

文章目录

  • [1. Bagging集成学习算法](#1. Bagging集成学习算法)
    • [1.1 简介](#1.1 简介)
    • [1.2 基本步骤](#1.2 基本步骤)
    • [1.3 Bagging优缺点](#1.3 Bagging优缺点)
    • [1.4 随机森林:Bagging的一个重要应用](#1.4 随机森林:Bagging的一个重要应用)
    • [1.5 总结](#1.5 总结)
  • [2. Python代码实现](#2. Python代码实现)
  • [3. 如何理解偏差与方差](#3. 如何理解偏差与方差)
    • [3.1 偏差(Bias)](#3.1 偏差(Bias))
    • [3.2 方差(Variance)](#3.2 方差(Variance))
    • [3.3 方差与偏差的权衡](#3.3 方差与偏差的权衡)
    • [3.4 举例说明](#3.4 举例说明)
    • [3.5 如何调整偏差和方差](#3.5 如何调整偏差和方差)
    • [3.6 偏差与方差的计算](#3.6 偏差与方差的计算)
  • [4. Bagging是如何减少方差的?](#4. Bagging是如何减少方差的?)

集成学习(Ensemble Learning)是一种通过结合多个模型的预测结果来提高整体预测性能的技术。常见的集成学习框架有:Bagging、Boosting、Stacking。每种方法都有其独特的优势和适用场景,本文主要聚焦于介绍 Bagging 算法

1. Bagging集成学习算法

1.1 简介

Bagging 全称叫做 Bootstrap aggregating,通过训练多个相同类型的基学习器,并将他们的预测结果进行集成,从而提高模型整体性能的集成学习方法。Bagging的核心思想是通过并行训练多个基学习器,每个基学习器在训练集的不同子集上进行训练,最终通过这些基学习器的预测结果进行平均(回归任务)或投票(分类任务)得到最终预测结果。

Bagging基本特点如下:

  • 训练n个模型,每个模型在不同训练子集上独立训练
  • 所有基学习器的预测结果进行平均(回归任务)或投票(分类任务)得到最终决策。
  • 采用 bootstrap 采样(有放回采样)从原始数据集中随机抽取样本,通常每个基学习器都基于不同的数据子集进行训练。对于每个基学习器来说,大约有63%的样本会被重复采样到,而剩余的样本则可用作模型的验证集。

1.2 基本步骤

  • 数据采样: 从原始数据中通过自助法随即有放回的抽取多个子集,每个子集的大小与原始数据相同。由于是有放回的抽样,所以每个子集可能包含重复的数据点,而一些数据点可能未被抽取
  • 训练多个基学习器: 使用不同的子集训练多个基学习器。常见的基学习器是决策树,但也通常可以是其它模型算法
  • 集成预测: 对于分类问题,通过投票的方式决定最终分类结果,对于回归问题,则通常通过取平均的方式得到最终的预测结果

1.3 Bagging优缺点

优点:

  • 降低模型的方差 : 通过训练多个基学习器,Bagging能够有效减少模型的方差,特别是在高方差模型(如决策树)上尤为有效。通过集成多个基学习器,能够平滑预测结果,从而提高模型的稳定性,减少过拟合
  • 并行化 :Bagging中的每个基学习器都可以独立训练,因而具有很好的并行化特性。可以充分利用多核处理器和分布式计算平台,显著加快训练过程
  • 使用性强 :Bagging方法对数据的异常值和噪声具有较好的鲁棒性。由于每个基学习器只依赖于部分数据,因此个别样本的噪声不会对最终结果产生过大影响

缺点:

  • 无法减少模型的偏差: 虽然Bagging能够减少方差,但对于已经有较高偏差的模型(如线性模型),Bagging无法显著提升性能,可能不会有效提高模型的整体准确性。

1.4 随机森林:Bagging的一个重要应用

随机森林(Random Forest)是Bagging算法的一个重要应用,它通过使用决策树作为基学习器并结合Bagging技术来构建集成模型。

  • 随机森林不仅利用了Bagging的思想,还在每次进行bootstrap采样时,额外对特征进行随机选择。具体来说,在每个决策树的节点分裂时,随机选择一部分特征进行训练,这种做法进一步增强了不同决策树之间的差异性
  • 通过引入特征的随机选择,随机森林避免了模型过度拟合,提高了决策树之间的多样性,从而增强了集成模型的性能和稳定性

1.5 总结

  • 适用于高方差模型: Bagging非常适合用于那些本身方差较高、不稳定的模型(如决策树)。通过集成多个模型,能够减少过拟合,增强模型的鲁棒性
  • 对噪声具有鲁棒性: 由于每个基学习器都在不同的数据子集上进行训练,因此Bagging能够有效地应对数据中的噪声和异常值
  • 不适用于高偏差模型: 对于一些本身偏差较大的模型(如线性回归),Bagging无法显著提高其性能,因为它主要减少的是方差,而不改变偏差。

2. Python代码实现

python 复制代码
class Bagging:
    def __init__(self, base_learner, n_learners):
        self.learners = [clone(base_learner) for _ in range(n_learners)]
    
    def fit(self, X, y):
        for learner in self.learners:
            examples = np.random.choice(
                np.arange(len(X)), int(len(X)), replace=True)
            
            learner.fit(X.iloc[examples, :], y.iloc[examples])

    def predict(self, X):
        preds = [learner.predict(X) for learner in self.learners]
        return np.array(preds).mean(axis=0)

3. 如何理解偏差与方差

在机器学习中,偏差(Bias)和方差(Variance)是衡量模型表现的两个重要概念,它们分别衡量了模型的预测误差和模型对数据变化的敏感度。这两个概念通常用于描述模型的泛化能力和在不同数据集上的表现,理解它们有助于分析和改进模型。

3.1 偏差(Bias)

偏差是指模型的预测结果与真实值之间的差距,反映了模型在拟合训练数据时的系统性误差。简而言之,偏差衡量的是模型的假设与真实数据之间的差异。

  • 高偏差:如果模型的偏差较高,说明它的预测结果与真实值之间存在较大的系统性误差,模型的假设或结构太简单,无法捕捉到数据的复杂性,简单的模型通常会有较高的偏差。

  • 低偏差:如果模型的偏差较低,说明模型能够较好地拟合数据,预测结果接近真实值。复杂的模型通常会有较低的偏差,但可能会导致过拟合。

3.2 方差(Variance)

方差是指模型对训练数据集波动的敏感度。方差大的模型过于关注训练数据,在捕捉潜在模式的同时,也捕捉到了噪声。这种现象被称为过度拟合,即模型在训练数据上表现异常出色,但无法推广到新的、未见过的数据。方差大会导致模型过于复杂,从而降低预测的可靠性。

  • 高方差:如果模型的方差较高,说明它对训练数据集的变化非常敏感,即在不同的训练集上表现差异较大。高方差的模型容易过拟合训练数据,对训练集中的细节(包括噪声)进行了过度拟合
  • 低方差:如果模型的方差较低,说明它的预测结果在不同的训练集之间比较一致,表现出较强的泛化能力

方差的影响:

  • 高方差通常意味着过拟合(Overfitting),即模型过度拟合训练集的噪声和异常值,无法在新的数据上良好表现
  • 低方差通常意味着模型具有较好的泛化能力,但如果方差过低,可能表示模型过于简单

3.3 方差与偏差的权衡

偏差和方差之间通常存在权衡关系。在实际应用中,我们常常需要在偏差和方差之间找到一个平衡点,以获得最佳的模型性能。这种权衡被称为偏差-方差权衡(Bias-Variance Tradeoff)。

  • 高偏差、低方差: 模型过于简单,无法拟合数据的复杂性,容易导致欠拟合
  • 低偏差、高方差: 模型过于复杂,容易拟合训练数据中的噪声,导致过拟合
  • 适中偏差、适中方差: 模型能够捕捉数据的规律,既不缺乏复杂性,也不对训练数据过度敏感,通常是最佳的情况

3.4 举例说明

假设现在正在做一个分类问题,模型的目标是预测某个数据点属于哪个类别

  • 高偏差例子:使用一个线性模型(例如线性回归)来解决一个非常复杂的非线性分类问题。由于模型无法捕捉到数据的非线性关系,预测结果和真实标签之间存在很大的差异。这种情况下,模型的偏差很高,方差很低,属于欠拟合。
  • 高方差的例子:使用一个非常复杂的模型(例如深度神经网络或非常深的决策树)来拟合训练数据。虽然训练误差很小,但当你用新数据测试时,模型的表现大幅下降,因为它在训练过程中学到了过多的噪声和细节。此时,模型的方差较高,偏差较低,属于过拟合。

3.5 如何调整偏差和方差

降低偏差:

  • 增加模型的复杂度,例如使用非线性模型、增加模型的参数数量、增加更多的特征等
  • 提供更多的训练数据,帮助模型学习数据中的复杂关系
  • 减少正则化的强度,允许模型学习更多的细节

降低方差:

  • 减少模型复杂度,例如使用简单的模型(如线性回归、朴素贝叶斯等),避免过度拟合
  • 使用集成学习方法(如Bagging、Boosting等),通过多个模型的集成来减少方差
  • 增加训练数据量,以使模型能够更好地学习数据的整体规律而非细节
  • 使用正则化技术来限制模型复杂度

3.6 偏差与方差的计算

E [ ( y ^ − y ) 2 ] = ( E [ y ^ ] − y ) 2 ⏟ 偏差 2 + E [ ( y ^ − E [ y ^ ] ) 2 ] ⏟ 方差 + Var ( y ) ⏟ 噪声 \mathbb{E}[(\hat{y} - y)^2] = \underbrace{(\mathbb{E}[\hat{y}] - y)^2}{\text{偏差}^2} + \underbrace{\mathbb{E}[(\hat{y} - \mathbb{E}[\hat{y}])^2]}{\text{方差}} + \underbrace{\text{Var}(y)}_{\text{噪声}} E[(y^−y)2]=偏差2 (E[y^]−y)2+方差 E[(y^−E[y^])2]+噪声 Var(y)

其中:

  • y ^ \hat{y} y^ 是模型的预测值。
  • y y y 是真实值。
  • E [ y ^ ] \mathbb{E}[\hat{y}] E[y^] 是模型预测值的期望。

4. Bagging是如何减少方差的?

方差是一个随机变量与其均值之间的平方偏差的期望值,表达式如下:
V a r ( X ) = E ( X − E ( X ) ) 2 Var(X)=E(X-E(X))^2 Var(X)=E(X−E(X))2

V a r ( X ) = E ( X 2 ) − ( E ( X ) ) 2 Var(X) = E(X^2) - (E(X))^2 Var(X)=E(X2)−(E(X))2

假设有多个模型的预测结果 X 1 , X 2 , X 3 . . . . . . X n X_1,X_2,X_3......X_n X1,X2,X3......Xn,每个变量的方差为 σ 2 \sigma^2 σ2。每个变量对应于一个弱学习器的预测结果,那么我们对这些弱学习器进行平均:

X ˉ = X 1 + X 2 + . . . + X n n \bar X = \frac {X_1+X_2+...+X_n}{n} Xˉ=nX1+X2+...+Xn

由于 V a r ( a X ) = a 2 V a r ( X ) Var(aX)=a^2Var(X) Var(aX)=a2Var(X),我们有:

V a r ( X ˉ ) = V a r ( X 1 + X 2 + . . . + X n n ) = 1 n 2 V a r ( X 1 + X 2 + . . . . + X n ) Var(\bar X) = Var(\frac {X_1+X_2+...+X_n}{n}) = \frac 1 {n^2}Var(X_1+X_2+....+X_n) Var(Xˉ)=Var(nX1+X2+...+Xn)=n21Var(X1+X2+....+Xn)

由于每个 X i X_i Xi 是独立的,我们可以写成:
1 n 2 V a r ( X 1 + X 2 + . . . + X n ) = 1 n 2 ( V a r ( X 1 ) + V a r ( X 2 ) + . . . + V a r ( X n ) ) = n σ 2 n 2 = σ 2 n \frac 1 {n^2}Var(X_1+X_2+...+X_n) = \frac {1}{n^2}(Var(X_1)+Var(X_2)+...+Var(X_n)) = \frac {n\sigma^2}{n^2} = \frac {\sigma^2}{n} n21Var(X1+X2+...+Xn)=n21(Var(X1)+Var(X2)+...+Var(Xn))=n2nσ2=nσ2

因此,我们有:
V a r ( X ˉ ) = σ 2 n < σ 2 Var(\bar X) = \frac {\sigma^2}{n} < \sigma^2 Var(Xˉ)=nσ2<σ2

换句话说,对一组观察值取平均可以减少方差。因此,减少方差并提高预测准确性的自然方法是从总体中抽取多个训练集,使用每个训练集构建一个单独的预测模型,然后对结果进行平均。

相关推荐
来瓶霸王防脱发1 小时前
【C#深度学习之路】如何使用C#实现Yolo5/8/11全尺寸模型的训练和推理
深度学习·yolo·机器学习·c#
music&movie1 小时前
代码填空任务---自编码器模型
python·深度学习·机器学习
盖丽男2 小时前
机器学习的组成
人工智能·机器学习
风一样的树懒2 小时前
Python使用pip安装Caused by SSLError:certificate verify failed
人工智能·python
Felix_12153 小时前
2025 西电软工数据结构机考 Tip (By Felix)
算法
测试最靓仔3 小时前
allure报告修改默认语言为中文
python·自动化
AI视觉网奇4 小时前
imageio 图片转mp4 保存mp4
python
飞yu流星4 小时前
C++ 函数 模板
开发语言·c++·算法
pursuit_csdn4 小时前
力扣 74. 搜索二维矩阵
算法·leetcode·矩阵
labuladuo5204 小时前
洛谷 P8703 [蓝桥杯 2019 国 B] 最优包含(dp)
算法·蓝桥杯·动态规划