Bagging并行式集成学习

如大家所熟悉的,Bagging并行式集成学习,Bagging ,即 Bootstrap AGGregatING,表示自助抽样集成,将训练集随机有放回地采样得到m个样本的采样集,基于每个采样集训练一个基学习器,再预测时将它们结合得到结果,通常分类问题使用**投票法**生成结果,回归问题使用**平均法**作为最终的结果。

以下是集合结果时使用的方法:

*投票法

绝对多数投票 majority voting :选取过半数投票的结果

相对多数投票 plurality voting :选取得票数最多的结果

加权投票: 通过训练权重,对每个基分类器的结果加权处理

* 平均法

简单平均:直接算平均值作为最终结果

加权平均:通过训练权重,对每个基分类器的结果加权处理

Random Forest 随机森林

随机森林采用 Bagging 技术和随机特征选择来构建决策树,因此能够有效地降低过拟合风险,提高模型的泛化能力。

整体的流程如下:

  1. 从原始数据集中使用自助采样(bootstrap sampling)的方法随机抽取若干个样本构建新的训练集,即每个训练集都是由原始数据集中采样得到的,每个样本被采样到新的训练集的概率为 n/1 。

  2. 从所有特征中随机选取一部分特征,比如说 m 个特征( m << 特征总数),然后从这 m 个特征中选择最优的特征进行节点分裂。这个过程可以通过计算信息增益(ID3)、增益比(C4.5)或基尼指数(CART)来选择最优特征。

  3. 对每个节点重复步骤 2 直到满足停止条件,比如说节点包含的样本数量小于某个阈值,或者树的深度达到了某个限制。 重复步骤 1 到 3 ,构建多棵决策树,最终的结果就和上述 Bagging 的集合结果的方法相似。