第8章:集成学习

个体与集成

  • 同质:相同的基学习器,实现容易,但是很难保证差异性。
  • 异质:不同的基学习器,实现复杂,不同模型之间本来就存在差异性,但是很难直接比较不同模型的输出,需要复杂的配准方法。




好而不同


boosting

Adaboost


求解h







求解alpha


bagging

随机森林

数据集划分:使用类似自助法的k折交叉验证,有放回的取出,分别训练T个决策树。

随机:一个是训练集的随机,一个是属性的随机(每次在当前属性中随机取K个构成属性子集,在子集中选择信息增益最大的属性)

结合策略

集合的好处

  • 可能多个假设在训练集上达到同等性能,使用单学习器可能因为误选而导致泛化性能不佳。
  • 单个可能陷入局部极小点。
  • 可以使相应的假设空间扩大。

结合方法

平均法

  • 简单平均
  • 加权平均

投票法

  • 绝对多数投票(大于一半则预测为该标记,否则拒绝)
  • 相对多数投票
  • 加权投票法

学习法

利用初始数据集训练出初级学习器,然后生成一个新数据集,训练一个次级学习器。

多样性增强

  • 数据样本扰动
  • 输入属性扰动
  • 输出表示扰动
  • 算法参数扰动
相关推荐
动恰客流管家12 小时前
动恰3DV3丨2026年实体商业数字化转型:客流数据是第一生产力——全场景智慧客流解决方案
大数据·人工智能·3d·性能优化
袖手蹲12 小时前
行空板K10调用Claude Buddy桌面宠物
人工智能·自动化
风落无尘13 小时前
《智能重生:从垃圾堆到AI工程师》——第三章 矩阵与防线
人工智能·线性代数·矩阵
byte轻骑兵13 小时前
【AVRCP】规范精讲[7]: 打通AVCTP互操作底层,吃透事务标签与分片规则
人工智能·音视频·avrcp·音视频控制
迦南的迦 亚索的索13 小时前
AI_08_coze_私有数据访问
人工智能
xiaoduo AI13 小时前
智能客服机器人能否实现多 LLM 自由切换?Agent 开放平台接入 DeepSeek、通义千问如何对比成本与效果?
大数据·人工智能·机器人
码流怪侠13 小时前
Matt Pocock Skills:AI 时代的真实工程技能库
人工智能·深度学习·github
日光明媚13 小时前
torch.compile 与 Triton 的加速本质:从原理到实际效果
人工智能·python·计算机视觉·stable diffusion·aigc
zubylon13 小时前
Ollama 本地起一个开发助手
前端·人工智能
福将~白鹿13 小时前
DeerFlow调研报告
人工智能