Bagging并行式集成学习

如大家所熟悉的，Bagging并行式集成学习，Bagging ，即 Bootstrap AGGregatING，表示自助抽样集成，将训练集随机有放回地采样得到m个样本的采样集，基于每个采样集训练一个基学习器，再预测时将它们结合得到结果，通常分类问题使用**投票法**生成结果，回归问题使用**平均法**作为最终的结果。

以下是集合结果时使用的方法：

*投票法

绝对多数投票 majority voting ：选取过半数投票的结果

相对多数投票 plurality voting ：选取得票数最多的结果

加权投票: 通过训练权重，对每个基分类器的结果加权处理

* 平均法

简单平均：直接算平均值作为最终结果

加权平均：通过训练权重，对每个基分类器的结果加权处理

Random Forest 随机森林

随机森林采用 Bagging 技术和随机特征选择来构建决策树，因此能够有效地降低过拟合风险，提高模型的泛化能力。

整体的流程如下：

从原始数据集中使用自助采样（bootstrap sampling）的方法随机抽取若干个样本构建新的训练集，即每个训练集都是由原始数据集中采样得到的，每个样本被采样到新的训练集的概率为 n/1 。
从所有特征中随机选取一部分特征，比如说 m 个特征（ m << 特征总数），然后从这 m 个特征中选择最优的特征进行节点分裂。这个过程可以通过计算信息增益（ID3）、增益比（C4.5）或基尼指数（CART）来选择最优特征。
对每个节点重复步骤 2 直到满足停止条件，比如说节点包含的样本数量小于某个阈值，或者树的深度达到了某个限制。重复步骤 1 到 3 ，构建多棵决策树，最终的结果就和上述 Bagging 的集合结果的方法相似。