集成算法概述与分类

集成算法概述

核心思想：综合多个模型（"多个专家"）的判断，以获得比单一模型更好的预测效果。

常见结合策略：

简单平均法

加权平均法

投票法（少数服从多数）

根据个体学习器之间的依赖关系和生成方式，集成学习分为三类：

特点：并行训练多个基学习器，彼此之间无强依赖。

代表算法：随机森林（Random Forest）

通过数据采样随机和特征选择随机构建多棵决策树。

分类任务使用投票法，回归任务使用平均法。

优势：

处理高维数据，无需特征选择。

可评估特征重要性。

支持并行化，训练速度快。

可可视化分析。

特点：串行训练多个弱学习器，根据前一轮结果调整样本权重。

代表算法：AdaBoost

步骤：

思想：逐步强化模型，重点关注难分的样本。

特点：堆叠多种不同类型的模型，分阶段训练。

第一阶段：多个基模型独立预测。

第二阶段：使用第一阶段结果训练一个元模型（meta-model）进行最终预测。

可融合多种模型：如KNN、SVM、随机森林等。