机器学习常见知识点 1：Baggin集成学习技术和随机森林

文章目录

1、集成学习
- a.Bagging
- - Bagging的工作原理
  - - [1. 自助采样（Bootstrap Sampling）](#1. 自助采样（Bootstrap Sampling）)
    - [2. 训练多个基学习器](#2. 训练多个基学习器)
    - [3. 聚合预测](#3. 聚合预测)
  - Bagging的优点
  - Bagging的缺点
  - 应用场景
- b.Boosting
2、决策树
3、随机森林
- - 随机森林的核心概念
  - - [1. 集成学习](#1. 集成学习)
    - [2. 决策树](#2. 决策树)
  - 构建随机森林的步骤
  - - [1. 自助采样（Bootstrap sampling）](#1. 自助采样（Bootstrap sampling）)
    - [2. 训练多个决策树](#2. 训练多个决策树)
    - [3. 聚合预测](#3. 聚合预测)
  - 随机森林的随机性的两个体现
  - 随机森林的优势

记忆名词：
Bagging、自助采样
随机森林、基模型、集成学习、特征随机性

1、集成学习

集成学习是一种机器学习范式，它通过构建并组合多个学习器来提高预测性能。集成学习中最主要和最常用的两种技术是 Bagging 和 Boosting 。不过，除了这两种，还有另一种较为常见的集成方法称为 Stacking 。下面对这三种主要的集成学习技术的区别进行简要介绍：
主要区别：

Bagging ：独立并行地训练每个基模型，并且每个模型都得到同等的权重。目标是减少方差，提高稳定性。这些基学习器通常是同一种类型的机器学习算法，如决策树是Bagging中最常用的基学习器。
Boosting ：顺序训练每个基模型，每个模型学习前一个模型的残差。目标是减少偏差，提高预测的准确性。
Stacking ：利用不同模型的多样性，通过一个高层模型来整合各个基模型的输出。目标是利用不同模型的优势，提高整体性能。

在实际应用中，选择哪一种集成技术取决于特定任务的需求、数据特性以及所追求的性能指标。

a.Bagging

Bagging（自助聚合）是一种集成学习技术，用于提高机器学习算法的稳定性和准确性，尤其是对于决策树模型。全称为"Bootstrap Aggregating"，Bagging通过组合多个模型的预测结果来减少方差，通常能有效防止过拟合。

Bagging的工作原理

1. 自助采样（Bootstrap Sampling）

Bagging的核心是自助采样，这是一种随机采样技术。从原始数据集中随机选择样本，允许重复，即同一个样本可以被选中多次。这样，每次采样都能生成一个大小等于原数据集的新数据集，但由于有放回的采样方式，这些新数据集彼此之间会有所不同。

相当于对每个基模型都有一个原数据集大小的数据集，这个数据集是在原数据集中有放回地随机抽取的。每个基模型对原数据集有不同视角，减少了过拟合的现象。

2. 训练多个基学习器

使用自助采样得到的每个独立的数据子集训练一个基学习器。这些基学习器通常是同一种类型的机器学习算法，如决策树是Bagging中最常用的基学习器。

3. 聚合预测

当所有的基学习器都被训练完成后，它们的预测将被组合起来形成最终的预测结果。对于分类问题，最常用的聚合方法是投票机制（多数投票）；对于回归问题，则通常采用平均预测。

Bagging的优点

减少方差 ：通过在不同的数据子集上训练，并聚合多个模型的预测，Bagging能显著减少预测的方差，增强模型的泛化能力。
避免过拟合 ：相较于单个模型，Bagging的集成方法能更好地避免过拟合问题。
并行化 ：由于每个基模型的训练是独立的，Bagging方法非常适合并行处理，提高训练效率。

Bagging的缺点

增加计算负担：需要训练多个基学习器，对计算资源的需求较高。
模型解释性降低 ：虽然单个决策树等基学习器容易理解，但整个Bagging模型由于涉及多个基学习器，因此整体解释性不如单个模型。

应用场景

Bagging是随机森林的基础，也可以用于其他类型的模型。除了决策树外，它也可以用于神经网络、线性回归等多种机器学习算法中，尤其是那些倾向于对训练数据过拟合的算法。

总之，Bagging是一个强大的集成技术，能有效提升模型在各种数据集上的表现，尤其是在处理那些具有高方差的复杂数据集时。

b.Boosting

将在讲述XGB和LGB时进行解释。

2、决策树

看纯文字的话，决策树这块是最难理解的，因此可以结合其他资料

花哩花哩：【五分钟机器学习】可视化的决策过程：决策树 Decision Tree

机器学习常见知识点 2：决策树

3、随机森林

哔哩哔哩：【五分钟机器学习】随机森林（RandomForest）：看我以弱搏强

随机森林是一种流行且强大的机器学习方法，用于分类和回归任务。它属于集成学习领域，具体来说是基于决策树的Bagging（自助聚合）技术。随机森林通过构建多个决策树并结合它们的预测结果来提高整体模型的准确性和鲁棒性。

根据自助聚合集成学习方法（Bagging），随机森林就相当于是Bagging方法中，基模型是决策树的Bagging方法。不过值得注意的是，随机森林对决策树实现的不同之处

随机森林的核心概念

1. 集成学习

随机森林基于集成学习原理，即将多个学习器结合起来，以期望得到比单一模型更好的预测效果。集成方法通常比单一模型更稳健，因为它们汇集了多个模型的决策，从而减少了过拟合的风险。

2. 决策树

随机森林的基本构件是决策树，这是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，而每个叶节点代表一种类别（在分类问题中）或一个连续值（在回归问题中）。决策树容易理解和实现，但单独使用时容易过拟合。

构建随机森林的步骤

先设置超参数，即多少棵树，分几层

1. 自助采样（Bootstrap sampling）

随机森林中的每个决策树都是通过从原始训练数据集中进行随机有放回抽样（即自助采样）来构建的子集。这意味着同一数据点可以在同一个树的训练数据中多次出现。

2. 训练多个决策树

使用自助采样得到的每个子集训练一个决策树。在构建这些决策树时，随机森林引入了另一个随机性层次：在每个分裂点，不是查看所有特征以找到最佳分裂，而是随机选择特征的一个子集，并基于这个子集找到最佳分裂。这一策略被称为特征随机性（feature bagging）。

3. 聚合预测

一旦所有决策树都被训练完成，它们的预测将被组合起来形成模型的最终输出。在分类任务中，这通常通过多数投票机制完成（即森林中的大多数树选择的类别成为最终预测）。在回归任务中，通常取所有树的预测输出的平均值。

随机森林的随机性的两个体现

自助采样（数据级的随机性）：自助采样来为每棵树生成不同的训练子集。
特征随机性（特征级的随机性）：在进行每次分裂时，不是从所有特征中选择最优分裂特征，而是从随机选定的特征子集中选择最优分裂特征。

随机森林的优势

准确性高：通过结合多个决策树的预测，随机森林通常能达到很高的准确率。
对于过拟合的鲁棒性：相对于单个决策树，随机森林更不容易过拟合。
可用于特征选择 ：随机森林能够提供关于特征重要性的洞见，这对于理解数据中哪些特征是影响结果的关键因素非常有用。
灵活性：能处理分类和回归任务，同时不需要特征缩放，可以很好地处理二元特征、连续特征以及缺失数据。

随机森林是一种基于决策树的Bagging集成学习技术，一般情况下它通过自助采样为每颗决策树选择样本空间，在训练每颗决策树的时候，它也具有随机性，即它随机选择特征子空间，在这个特征子空间里使用基尼不准度的方法选取最优特征进行决策树节点分裂。

总的来说随机森林的随机性体现在两个方面，第一个是在样本空间的选择上，第二个是在决策树分裂时特征空间的选择上
扩展一下：袋外误差（OOB）估计：由于自助采样，某些实例可能不会被包括在某棵树的训练集中。这些袋外实例可以用作验证集，提供模型性能的无偏估计。