在集成学习中,我们会训练多个模型(通常称为「弱学习器」)解决相同的问题,并将它们结合起来以获得更好的结果。最重要的假设是:当弱模型被正确组合时,我们可以得到更精确和/或更鲁棒的模型。
常用的模型集成方法:
- bagging (自助聚合)
- boosting (提升法)
- stacking (堆叠法)
模型集成的一些主要形式:
- 投票集成
在这种方法中,多个模型独立地进行训练,然后在预测时每个模型投票,最终的预测结果由多数投票决定。投票集成可以是硬投票(直接投票)或软投票(考虑预测概率)。 - 平均集成
多个模型的预测结果取平均值,这种方法通常在回归问题中使用。对于分类问题,可以使用类别概率的平均值。 - 堆叠集成
这是一种更复杂的集成方法,它涉及到在一个元模型(meta-model)的框架下结合多个基本模型。基本模型的预测结果成为元模型的输入。元模型通过学习如何结合基本模型的输出来产生最终的预测结果。 - 自适应集成
这种方法动态地选择哪个模型对于给定输入更合适。这可以基于输入数据的特性,例如使用某个模型在某些特定子集上表现更好。 - Boosting
Boosting是一种集成学习技术,其中弱分类器(通常是决策树)按顺序进行训练,每个新模型都试图纠正前一个模型的错误。最终的预测结果是所有模型的加权组合。