第8章:集成学习

个体与集成

  • 同质:相同的基学习器,实现容易,但是很难保证差异性。
  • 异质:不同的基学习器,实现复杂,不同模型之间本来就存在差异性,但是很难直接比较不同模型的输出,需要复杂的配准方法。




好而不同


boosting

Adaboost


求解h







求解alpha


bagging

随机森林

数据集划分:使用类似自助法的k折交叉验证,有放回的取出,分别训练T个决策树。

随机:一个是训练集的随机,一个是属性的随机(每次在当前属性中随机取K个构成属性子集,在子集中选择信息增益最大的属性)

结合策略

集合的好处

  • 可能多个假设在训练集上达到同等性能,使用单学习器可能因为误选而导致泛化性能不佳。
  • 单个可能陷入局部极小点。
  • 可以使相应的假设空间扩大。

结合方法

平均法

  • 简单平均
  • 加权平均

投票法

  • 绝对多数投票(大于一半则预测为该标记,否则拒绝)
  • 相对多数投票
  • 加权投票法

学习法

利用初始数据集训练出初级学习器,然后生成一个新数据集,训练一个次级学习器。

多样性增强

  • 数据样本扰动
  • 输入属性扰动
  • 输出表示扰动
  • 算法参数扰动
相关推荐
小关会打代码6 分钟前
自然语言处理之第一课语言转换方法
人工智能·自然语言处理
wenzhangli711 分钟前
OneCode 可视化揭秘系列(三):AI MCP驱动的智能工作流逻辑编排
人工智能
聚客AI27 分钟前
⭐精准率暴跌50%?RAG开发者必避的十大认知误区
人工智能·llm·agent
codeGoogle36 分钟前
大厂研发之谜:千亿投入砸出利润大缩水
前端·人工智能·后端
虚拟现实旅人38 分钟前
【机器学习】通过tensorflow搭建神经网络进行气温预测
神经网络·机器学习
豆浩宇1 小时前
Conda环境隔离和PyCharm配置,完美同时运行PaddlePaddle和PyTorch
人工智能·pytorch·算法·计算机视觉·pycharm·conda·paddlepaddle
京东云开发者1 小时前
DeepSeek冲击(含本地化部署实践)
人工智能
@国境以南,太阳以西1 小时前
基于Grad-CAM(Gradient-weighted Class Activation Mapping)的可解释性分析
人工智能·深度学习
AI人工智能+2 小时前
表格识别技术:通过计算机视觉和OCR,实现非结构化表格向结构化数据的转换,推动数字化转型。
人工智能·计算机视觉·ocr
小宁爱Python2 小时前
基于 Django+Vue3 的 AI 海报生成平台开发(海报模块专项)
人工智能·python·django