一.什么是集成学习

集成学习 （ensemble learning）通过将多个学习器进行组合来完成学习任务。下图显示集成学习的一般结构（取自周志华老师的西瓜书），个体学习器通常由一种现有的学习算法从训练数据产生，例如决策树（C4.5、CART）、BP神经网络等。集成中只包含同种类型的个体学习器时，集成是同质的，同质集成 中的个体学习器也称为"基学习器"，相应学习算法称为"基学习器算法"；集成中包含不同类型的个体学习器时，例如既有决策树又有神经网络，这样的集成是异质的，异质集成 中个体学习器由不同学习算法生成，这时不再有基学习器算法，相应的个体学习器一般不称为基学习器，直接称为"个体学习器"或"组件学习器"。

集成学习算法需要关注的两个问题，是探索集成学习的关键：

1）个体学习器如何训练得到

例如Adaboost改变训练数据权值；Gradient Boosting的梯度提升

2）如何将个体学习器组合

例如Bagging的投票法------软投票、硬投票；Boosting的线性组合------加法模型
不同的个体学习器训练方法+不同的个体学习器组合=不同的集成学习算法

二.集成学习主要方法

2.1Boosting 串行方法

Boosting是将弱学习算法提升为强学习算法的机器学习方法，采用加法模型 （即基函数的线性组合）与前向分步算法or梯度提升算法。通俗解释：Boosting会训练一系列弱分类器，并将所有学习器的预测结果组合起来作为最终预测结果，在学习过程中，后期的学习器更关注先前学习器学习中的错误。

典型算法

Adaboost、GBDT、XGBoost、LightGBM等，其中AdaBoost 继承了Boosting的思想，为每个弱学习器赋予不同权值，将所有弱分类器权重和作为预测的结果，达到强学习器的效果；Gradient Boosting是Boosting思想的另一种实现方法，它将损失函数梯度下降的方向作为优化的目标，新的学习器建立在之前学习器损失函数梯度下降的方向，在梯度下降的方向不断优化，使损失函数持续下降，从而提高模型的拟合程度，代表算法GBDT、XGBoost、LightGBM；GBDT （Gradient Tree Boosting，别名 GBM、GBRT、MART）是Gradient Boosting的一种实现，GBDT相较BDT（提升树）基学习器都是采用CART回归树，但BDT是不断拟合残差来优化目标函数，GBDT是通过负梯度近似残差来优化目标函数（即损失函数）；XGBoost和LightGBM都是GBDT的改进模型，最终这两个模型成为了集大成者，适合于分类、回归、排序等问题（多种基学习器）；支持分布式并行计算（Rabit），具有高可移植性（XGBoost4J-Spark、XGBoost4J-Flink）；支持GPU算法加速；结果也更加精准（目标函数用二阶泰勒展开近似）；泛化能力更强（加入了结构误差项------正则化降低模型复杂度）。
算法特点

Boosting可以有效提高模型准确性，但各个基学习器间存在强依赖关系，只能【串行】生成的序列化方法，时间开销较大（XGBoost和LightGBM在这方面已经做了极大的改进）

2.2Bagging 并行方法

Bagging对数据集进行有放回采样，得到每个基模型所需要的子训练集，然后对所有基模型预测结果进行综合，产生最终的预测结果。对于分类问题，采用投票法（软投票、硬投票）计算结果；对于回归问题，采用平均法计算结果。

典型算法
Random Forests随机森林（简称RF）是Bagging最具代表性的算法，基学习器采用决策树，并且在Bagging样本扰动（行采样）的基础上增加了属性扰动（列采样），进一步丰富了样本的多样性。
算法特点
Bagging模型的精度要比Boosting低，但各个基学习器相互独立，不存在强依赖关系，可以【并行】生成的序列化方法，时间开销较小（RF模型仅采用决策树作为基模型，进一步优化可训练效率）

2.3Stacking 融合方法

Stacking是通过训练集训练好所有的基模型，然后用基模型的预测结果生成一个新的数据，作为组合器模型的输入，用以训练组合器模型，最终得到预测结果。组合器模型通常采用逻辑回归。

算法特点
Stacking一般采用异质集成 ，即使用多种学习算法训练不同种类的个体学习器。而Boosing和Bagging采用同质集成，即基学习器为同一种基学习算法。

三.集成学习案例

3.1书籍案例推荐

《阿里云天池大赛赛题分析机器学习篇》

工业蒸汽量预测属于回归问题 。采用的算法有单一模型岭回归、Lasso回归、SVR回归、K近邻； Boosting模型 GBDT 、XGBoost； Bagging模型 RandomForset；多模型融合Stacking LightGBM+LinearRegression 等等。
天猫用户重复购买预测属于分类问题 。采用模型有单一模型逻辑回归LogisticRegressioin、高斯贝叶斯 GaussianNB、K近邻、决策树分类；集成学习随机森林、LightGBM、极端随机树ET。
O2O优惠券预测属于时间序列预测问题 。采用算法有朴素贝叶斯 MultinomialNB、逻辑回归、决策树、随机森林、XGBoost、LightGBM。另外有模型验证方法交叉验证（K折、留一法、留P法、K折分层等）、验证结果可视化（学习曲线、验证曲线），以及模型调参（网格搜索、随机搜索、启发式搜索）。
阿里云安全恶意程序检测属于多分类问题，采用LightGBM模型实现，本节更多讲解数据探索和特征工程过程。

3.2个人学习博客

1.关于XGBoost的应用示例及基本原理，

见《XGBoost模型调参、训练、评估、保存和预测》，包含模型脚本文件；

见《XGBoost算法原理及基础知识》，包括集成学习方法，XGBoost模型、目标函数、算法，公式推导等；

2.关于分类任务的评估指标值详解，

见《分类任务评估1------推导sklearn分类任务评估指标》，其中包含了详细的推理过程；

见《分类任务评估2------推导ROC曲线、P-R曲线和K-S曲线》，其中包含ROC曲线、P-R曲线和K-S曲线的推导与绘制；

3.关于XGBoost模型中树的绘制和模型理解，

见《Graphviz绘制模型树1------软件配置与XGBoost树的绘制》，包含Graphviz软件的安装和配置，以及to_graphviz()和plot_trees()两个画图函数的部分使用细节；

见《Graphviz绘制模型树2------XGBoost模型的可解释性》，从模型中的树着手解释XGBoost模型，并用EXCEL构建出模型。

4.关于集成学习实践，

见《机器学习实践(1.1)XGBoost分类任务》，包含二分类、多分类任务以及多分类的评估方法。

见《机器学习实践(1.2)XGBoost回归任务》，包含回归任务模型训练、评估（R2、MSE）。

见《机器学习实践(2.1)LightGBM分类任务》，包含LightGBM二分类、多分类任务及评估方法；

见《机器学习实践(2.2)LightGBM回归任务》，包含LightGBM模型的调参、训练、保存、调用、评估。

❤️ 机器学习内容持续更新中... ❤️

声明：本文所载信息不保证准确性和完整性。文中所述内容和意见仅供参考，不构成实际商业建议，可收藏可转发但请勿转载，如有雷同纯属巧合。

机器学习原理(1)集成学习基本方法