第8章:集成学习

个体与集成

  • 同质:相同的基学习器,实现容易,但是很难保证差异性。
  • 异质:不同的基学习器,实现复杂,不同模型之间本来就存在差异性,但是很难直接比较不同模型的输出,需要复杂的配准方法。




好而不同


boosting

Adaboost


求解h







求解alpha


bagging

随机森林

数据集划分:使用类似自助法的k折交叉验证,有放回的取出,分别训练T个决策树。

随机:一个是训练集的随机,一个是属性的随机(每次在当前属性中随机取K个构成属性子集,在子集中选择信息增益最大的属性)

结合策略

集合的好处

  • 可能多个假设在训练集上达到同等性能,使用单学习器可能因为误选而导致泛化性能不佳。
  • 单个可能陷入局部极小点。
  • 可以使相应的假设空间扩大。

结合方法

平均法

  • 简单平均
  • 加权平均

投票法

  • 绝对多数投票(大于一半则预测为该标记,否则拒绝)
  • 相对多数投票
  • 加权投票法

学习法

利用初始数据集训练出初级学习器,然后生成一个新数据集,训练一个次级学习器。

多样性增强

  • 数据样本扰动
  • 输入属性扰动
  • 输出表示扰动
  • 算法参数扰动
相关推荐
GIS好难学6 分钟前
【智慧城市】2025年华中农业大学暑期实训优秀作品(2):基于Vue框架和Java后端开发
人工智能·智慧城市
Joker-Tong7 分钟前
大模型数据洞察能力方法调研
人工智能·python·agent
哔哩哔哩技术11 分钟前
VisionWeaver:从“现象识别”到“病因诊断”,开启AI视觉幻觉研究新篇章
人工智能
B站计算机毕业设计之家11 分钟前
基于Python+Django+双协同过滤豆瓣电影推荐系统 协同过滤推荐算法 爬虫 大数据毕业设计(源码+文档)✅
大数据·爬虫·python·机器学习·数据分析·django·推荐算法
道可云16 分钟前
AI赋能:农业场景培育如何支撑乡村全面振兴
人工智能
极客代码21 分钟前
第七篇:深度学习SLAM——端到端的革命--从深度特征到神经辐射场的建图新范式
人工智能·python·深度学习·计算机视觉·slam·回环检测·地图构建
有Li25 分钟前
面向超声半监督分割的类别特异性无标记数据风险最小化|文献速递-文献分享
人工智能·深度学习·计算机视觉
pen-ai1 小时前
【高级机器学习】5. Dictionary learning and Non-negative matrix factorisation
人工智能·机器学习
IT_陈寒1 小时前
React 19新特性实战:5个提升开发效率的技巧与避坑指南
前端·人工智能·后端
声网1 小时前
主动交互和情境感知,AI 硬件是脱离手机屏幕掌控的蓝海机会丨硬件和端侧模型专场@RTE2025 回顾
人工智能·智能手机