【机器学习】Boosting与Bagging算法

听忆.2024-09-09 20:39

Boosting与Bagging算法

[1. Bagging（Bootstrap Aggregating）](#1. Bagging（Bootstrap Aggregating）)

核心思想：

Bagging的步骤：

Bagging的优势：

适用场景：

[2. Boosting](#2. Boosting)

核心思想：

Boosting的步骤：

Boosting的优势：

适用场景：

[Bagging vs Boosting 总结对比：](#Bagging vs Boosting 总结对比：)

|---------------------|
| 🎈边走、边悟🎈迟早会好 |

Boosting 和 Bagging 是两种常用的集成学习方法，它们通过结合多个弱学习器（弱分类器或回归器）来提升模型的整体性能。虽然两者的目标相同，但它们在工作原理、如何训练模型和组合结果的方式上有显著的不同。

1. Bagging（Bootstrap Aggregating）

核心思想：

Bagging的核心思想是并行训练多个弱学习器，通过减少模型的方差来提升整体性能。它通过随机采样创建多个训练集（有放回采样），然后对每个训练集训练一个模型，最后将这些模型的输出进行组合（例如分类问题用投票法，回归问题用平均法）。

Bagging的步骤：

数据采样：从原始数据集中随机有放回地抽取子集，生成多个不同的训练集。
训练多个模型：对每个子集分别训练一个模型，模型可以是决策树、线性回归、KNN等。
结果融合 ：
- 分类问题：通过投票法，即选择多数模型的预测结果作为最终结果。
- 回归问题：通过平均法，即取所有模型输出的均值。

例子：

随机森林是Bagging的经典应用。它使用多个决策树作为弱学习器，通过随机采样特征和样本来训练每棵树，并通过投票得到最终分类结果。

Bagging的优势：

降低方差：通过平均多个模型的预测，Bagging能显著减少方差，防止模型过拟合。
并行训练：每个模型可以并行训练，训练效率较高。

适用场景：

Bagging适用于高方差的模型，如决策树、神经网络等。这些模型对训练数据敏感，容易过拟合，而Bagging可以有效降低这种风险。

2. Boosting

核心思想：

Boosting的核心思想是串行训练多个弱学习器 ，每个新模型都试图修正前一个模型的错误。与Bagging不同，Boosting注重减少偏差，通过逐步改进模型性能来提升整体的准确性。

Boosting的步骤：

初始化：训练第一个弱学习器，并在整个训练数据上进行预测。
更新权重 ：
- 在每次迭代中，Boosting会为每个样本分配一个权重，错误分类的样本会获得更大的权重，下一步的模型会更关注这些样本。
- 新的弱学习器会针对这些权重进行训练，以更好地处理之前分类错误的样本。
结果融合：将所有弱学习器的结果加权组合，最终得到强学习器。每个弱学习器的权重通常根据其错误率决定，错误率越低的模型权重越大。

例子：

AdaBoost 和Gradient Boosting是Boosting的代表算法。

AdaBoost：在每一轮迭代中，增加被错误分类的样本的权重。
Gradient Boosting：通过最小化目标函数的梯度方向来逐步训练模型，常用于回归问题和分类问题。

Boosting的优势：

降低偏差：Boosting逐步改进模型，使得整体模型更具鲁棒性，能够减少偏差。
精度高：Boosting的串行模型会不断修正前一步模型的错误，通常最终的集成模型性能优越。

缺点：

训练时间长：由于模型是串行训练的，训练时间相对较长，尤其是在大数据集上。
容易过拟合：如果模型的迭代次数太多，Boosting可能会过拟合训练数据，尤其是在有噪声的数据集上。

适用场景：

Boosting适用于高偏差的模型，例如线性回归、弱决策树等。在这些模型上，Boosting可以有效减少偏差并提高预测准确性。

Bagging vs Boosting 总结对比：

特性	Bagging	Boosting
核心思想	并行训练多个模型，平均结果减少方差	串行训练模型，每次迭代纠正上一步的错误
数据采样	随机有放回采样，生成多个子集	通过权重调整关注难以分类的样本
弱学习器	独立训练	每个学习器依赖前一个学习器的结果
训练效率	并行训练，训练速度较快	串行训练，训练时间较长
偏差与方差	减少方差，防止过拟合	减少偏差，提升精度
代表算法	随机森林	AdaBoost, Gradient Boosting
适用场景	高方差的模型，如决策树、神经网络	高偏差的模型，如线性模型、弱决策树

结论：

Bagging 更适合用于减少模型的方差，防止过拟合，适合高方差模型。
Boosting 更适合用于减少偏差，逐步提升模型的精度，但可能导致过拟合，适合高偏差模型。

两者可以在不同场景下使用，根据数据的特点和模型的表现来选择合适的集成方法。

🌟感谢支持听忆.-CSDN博客

|--------------------|
| 🎈众口难调🎈从心就好 |

上一篇：微信小程序跳转到另一个微信小程序

下一篇：如何在 Marketo 中添加新的域名

热门推荐

01GitHub 镜像站点 02【保姆级教程】免费使用Gemini3的5种方法！免翻墙/国内直连 03BongoCat - 跨平台键盘猫动画工具 04UV安装并设置国内源 05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）06Linux下V2Ray安装配置指南 07Google Antigravity：无法登录？早期错误、登录修复和用户反馈指南 08Labelme从安装到标注：零基础完整指南 09全球最强模型Grok4，国内已可免费使用！（附教程）10在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）