【机器学习】06_集成学习

一、 集成学习基础概论

集成学习(Ensemble Learning)的核心思想是通过构建并结合多个个体学习器(Individual Learner)来完成学习任务,以获得比单一学习器更好的泛化能力和性能 1。

1. 学习器分类

  • 同质集成(Homogeneous): 集成中只包含同种类型的个体学习器(如全是决策树),此时个体学习器称为基学习器 2。
  • 异质集成(Heterogeneous): 个体学习器由不同的学习算法生成(如结合SVM和逻辑回归),通常称为"组件学习器" 3。

2. 组合范式

  • 并行式(Parallel): 学习器之间不存在强依赖关系,可并行生成(如 Bagging、随机森林)
  • 序列式(Sequential): 学习器之间存在强依赖关系,必须串行生成,后续学习器会对前驱学习器的错误进行改进(如 Boosting)

二、 Boosting:串行优化的艺术

Boosting 是一类通过不断调整样本分布来训练一系列基学习器的方法,旨在降低偏差(Bias)

1. AdaBoost(自适应提升)

AdaBoost 的核心逻辑是:"关注错题"。它根据前一轮基学习器的表现调整样本权重,使做错的样本在下一轮获得更多关注 7。

晦涩公式解析:基学习器权重系数 αt\alpha_tαt

αt=12ln1−etet\alpha_{t}=\frac{1}{2}ln\frac{1-e_{t}}{e_{t}}αt=21lnet1−et

  • 意义: 该公式决定了第 ttt 个学习器在最终投票中的话语权。
    • 解释: ete_tet 是错误率。当错误率越小时,αt\alpha_tαt 越大(代表该专家越可靠);当错误率 et=0.5e_t = 0.5et=0.5(相当于随机猜测)时,αt=0\alpha_t = 0αt=0;如果错误率大于 0.5,算法通常会停止迭代
      晦涩公式解析:样本权重更新 wt+1,iw_{t+1,i}wt+1,i
      wt+1,i=wtiZtexp(−αtyigt(xi))w_{t+1,i}=\frac{w_{ti}}{Z_{t}}exp(-\alpha_{t}y_{i}g_{t}(x_{i}))wt+1,i=Ztwtiexp(−αtyigt(xi))
  • 意义: 更新下一轮训练时每个样本的重要性。
    • 解释: yigt(xi)y_i g_t(x_i)yigt(xi) 代表分类是否正确。若分类正确,乘积为正,加上负号后指数项变小,样本权重降低;若分类错误,权重增大,迫使下一个学习器去解决这些"难题"

2. GBDT(梯度提升树)

GBDT 不再像 AdaBoost 那样通过调权重来解决难题,而是去拟合损失函数的负梯度(又称伪残差)

  • 原理: 每一棵新树都是在当前模型的梯度下降方向上构建的,从而逐步降低整体损失
  • 优势: 可以方便地扩展到各种损失函数(如回归的平方损失、分类的交叉熵)

三、 Bagging 与随机森林:并行的稳定性

此类方法通过增加学习器之间的多样性 来降低方差(Variance)

1. Bagging(装袋法)

  • 自助采样(Bootstrap Sampling): 采用有放回的随机采样。大约 36.8% 的样本在采样中始终不会被选中,这些被称为"包外(OOB)数据",可用于性能评估
  • 策略: 分类任务通常使用简单多数投票法 ;回归任务使用简单算术平均法

2. 随机森林(Random Forest, RF)

随机森林是 Bagging 的工业级加强版,引入了双重随机性:

  • 样本扰动: 来自自助采样
  • 属性扰动: 在决策树划分结点时,先随机选择 kkk 个特征子集,再从中选最优特征
  • 优点: 泛化性能极强,抗噪声能力好,通常不需要剪枝

四、 Stacking(堆叠法):元学习器

Stacking 是一种多层集成结构,它将多个初级学习器的预测结果作为"新特征",再训练一个**次级学习器(元模型)**来得出最终结论

  • 核心逻辑: 通过次级学习器自动学习各个基学习器的权重,而不是简单地手动分配

五、 多样性(Diversity):集成的"圣杯"

集成学习之所以有效,是因为个体学习器之间"好而不同"

1. 误差-分歧分解(Error-Ambiguity Decomposition)

核心公式:E=Eˉ−AˉE = \bar{E} - \bar{A}E=Eˉ−Aˉ 24* EEE: 集成的泛化误差

  • Eˉ\bar{E}Eˉ: 个体学习器误差的加权均值
  • Aˉ\bar{A}Aˉ: 个体学习器的加权分歧值(多样性的度量)
  • 结论: 个体学习器准确度越高(Eˉ\bar{E}Eˉ 越小)、多样性越大(Aˉ\bar{A}Aˉ 越大),则集成效果越好
  1. 增强多样性的方法
  • 数据样本扰动: 如采样法(Bagging/AdaBoost)

  • 输入属性扰动: 如随机子空间,随机选择特征子集进行训练

  • 输出表示扰动: 如翻转法,随机改变部分样本的标签

  • 算法参数扰动: 改变神经网络的初始权重等

总结:如何选择集成策略?

方法 核心目标 适用场景 关键特点
Boosting 降低偏差 34 针对欠拟合,提高模型精度 串行执行,基学习器权重自适应 35
Bagging/RF 降低方差 36 针对过拟合,提高稳定性 并行执行,双重随机性引入 37
Stacking 综合多种优势 竞赛或处理极复杂任务 结构化组合,元模型自动加权 38
相关推荐
ishangy11 分钟前
智慧矿山罐笼乘坐人数超限AI检测识别算法
人工智能·ai视觉解决方案·智慧矿山·ai视觉监控·罐笼超员ai检测识别
沐自礼11 分钟前
DeepSeekMoE 原理
人工智能·llm
Smartdaili China14 分钟前
OpenClaw赋能AI智能体:实时联网与网页抓取
人工智能·爬虫·ai·爬取·openclaw·open claw
汤姆yu18 分钟前
SkyClaw‑v1.0昆仑万维天工 AI
大数据·人工智能
如此这般英俊19 分钟前
手撕Claude Code—第一章 agent-loop
数据结构·人工智能·语言模型·自然语言处理
C137的本贾尼22 分钟前
Spring AI Alibaba 模型全家桶:接入通义、百川、LLaMA 等第三方 LLM
人工智能·spring·llama
志栋智能28 分钟前
小步快跑:从单一场景开启超自动化巡检之旅
运维·网络·人工智能·自动化
lauo31 分钟前
从FunloomAI到ibbot:当你的手机不再是“手机”,而是你的AI副脑和生产节点
人工智能·智能手机·架构·开源·github
实在智能RPA36 分钟前
AI Agent在制造业预测性维护上的算法精度怎样验证?深度拆解2026工业智能体实测表现
人工智能·ai
我是大AI39 分钟前
搜极星 GEO:让 AI 精准推荐,品牌不再隐形
大数据·人工智能·ai