周志华《机器学习—西瓜书》八

周志华《机器学习---西瓜书》八

八、集成学习

以下是按顺序整理的内容:

1. 集成学习

  • 定义:使用多个学习器协同解决问题的方法("多个模型融合")。
  • 实践表现:近十年KDDCup、Kaggle等竞赛的获胜方案几乎都用到了集成技术,是实战中提升模型性能的关键方法之一。

2.好而不同

如何得到好的集成
  • 核心原则:令个体学习器 "好而不同"

    • "好":个体学习器的性能不能太差(如准确率高于随机猜测);
    • "不同":个体学习器之间要有差异性(预测结果不完全一致)。
  • 示例验证:

    • 当个体学习器"好且不同"时,集成性能会远高于单个学习器;
    • 若个体学习器"差"或"无差异",集成性能会很差甚至失效。
多样性是关键(误差-分歧分解)
  • 理论分解:集成误差 E=Eˉ−AˉE = \bar{E} - \bar{A}E=Eˉ−Aˉ,其中:

    • Eˉ\bar{E}Eˉ:个体学习器的平均误差;
    • Aˉ\bar{A}Aˉ:个体学习器的平均"分歧"(即多样性)。
  • 结论:个体学习器越准确、多样性越高,集成性能越好。

  • 局限:"分歧"缺乏可操作的定义,且该分解仅适用于回归任务的平方损失场景。

3. 成功的集成学习方法分类

  • 序列化方法 (个体学习器按顺序训练,后一个学习器依赖前一个):
    代表:AdaBoost、GradientBoost、LPBoost等。
  • 并行化方法 (个体学习器独立训练):
    代表:Bagging、Random Forest、Random Subspace等。

4. Boosting流程

  • 核心思路:逐步调整数据集权重,让前一个学习器预测错误的样本在后续训练中获得更高权重,最终通过"加权组合"整合所有学习器。

  • 流程:

    1. 从原始数据集生成初始子数据集,训练第一个学习器;
    2. 根据第一个学习器的预测结果,增加错误样本的权重,生成新的子数据集,训练第二个学习器;
    3. 重复上述步骤,得到多个学习器;
    4. 对所有学习器的输出进行加权组合,得到最终结果。

5. Bagging

  • 核心思路:通过可重复采样(Bootstrap) 生成多个数据集,每个数据集训练一个个体学习器,最终通过"投票(分类)"或"平均(回归)"聚合结果。

  • 流程:

    1. 从原始数据集通过Bootstrap采样(有放回随机采样)生成多个子数据集;
    2. 每个子数据集训练一个个体学习器;
    3. 分类任务:选择得票最多的类别;回归任务:取个体学习器的输出平均值。
相关推荐
亚里随笔几秒前
GUI智能体如何应对环境变化_——首个GUI持续学习框架GUI-AiF详解
人工智能·学习·llm·rl·agentic
数字冰雹1 分钟前
对标国际标杆,数字冰雹 智能作战想定编辑工具 定义“新一代”战场仿真
人工智能·数据可视化
考證寶題庫網1 分钟前
AWS AIP-C01 認證介紹|AWS Certified AI Practitioner 考試全解析
人工智能
Dev7z4 分钟前
让机器学会“听诊”:基于集成学习的心肺听诊音自动分类系统设计与实现
机器学习·分类·集成学习
bylander6 分钟前
【AI学习】华为AgenticRAN架构调研
人工智能·学习·华为·无线通信·智能体
麟听科技6 分钟前
HarmonyOS 6.0+ 跨端元宇宙社交空间开发实战:3D虚拟形象与分布式交互落地
人工智能·分布式·学习·3d·华为·harmonyos
东坡肘子7 分钟前
Xcode 迈入 Agent 时代 -- 肘子的 Swift 周报 #122
人工智能·swiftui·swift
人工智能培训7 分钟前
深度学习中的梯度消失与梯度爆炸
人工智能·深度学习·逻辑回归·深度强化学习·具身智能·大模型应用工程师·大模型工程师证书
九.九8 分钟前
CANN ops-cv 技术解密:图像处理与目标检测算子的 NPU 硬件加速与性能调优策略
图像处理·人工智能·目标检测
尸僵打怪兽11 分钟前
图像处理OpenCV(一、二)
图像处理·人工智能·opencv