【Python机器学习】利用AdaBoost元算法提高分类性能——基于数据集多重抽样的分类器

当做重要决定时,大家可能都会考虑吸取多个专家而不是一个人的意见,这就是元算法背后的思路。元算法是对其他算法进行组合的一种方式。AdaBoost是一种非常流行的元算法。

我们可以将不同的分类器组合起来,这种组合结果被称为集成方法 或者元算法。使用集成方法时会有多种形式:可以使不同算法的集成,也可以是同一算法在不同设置下的集成,还可以是数据集不同部分分类给不同分类器之后的集成。

AdaBoost的优缺点:

优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调整

缺点:对离群点敏感

使用数据类型:数值型和标称型数据

bagging:基于数据随机重抽样的分类器构建方法

自举汇聚法,也称为bagging方法,是在从原始数据集选择S次后得到S个新数据集的一种技术。新数据集和原数据集的大小相等。每个数据集都是通过在原始数据集中随机选择一个样本来进行替换而得到的。这里的替换意味着可以多次地选择同一个样本。这一性质就允许新数据集中可以有重复的值,而原始数据集的某些值在新数据集中则不再出现。

在S个数据集建好之后,将某个学习算法分别作用于每个数据集就得到了S个分类器。当我们要对新数据进行分类时,就可以应用这S个分类器。与此同时,选择分类器投票结果中最多的类别作为最后的分类结果。

还有一些更先进的bagging方法,比如随机森林。

boosting

boosting是一种与bagging很类似的技术。不论是在boosting还是bagging当中,所使用的多个分类器的类型都是一致的。但是在前者中,不同的分类器是通过串行训练而获得的,每个新分类器都根据已训练出的分类器的性能来进行训练。boosting是通过集中关注被已有分类器错分的那些数据来获得新的分类器。

由于boosting分类的结果是基于所有分类器的加权求和结果的,因此boosting与bagging不太一样。bagging中的分类器权重是相等的,而boosting中的分类器权重并不相等,每个权重代表的是其对应分类器在上一轮迭代中的成功度。

boosting方法拥有多个版本。

AdaBoost的一般流程:

1、收集数据:可以使用任意方法

2、准备数据:依赖于所使用的弱分类器类型,其中单层决策树可以处理任意数据类型;对于弱分类器,简单分类器的效果更好

3、分析数据:可以使用任意方法

4、训练算法:AdaBoost的大部分时间都用在训练上,分类器将多次在同一数据集上训练弱分类器

5、测试算法:计算分类的错误率

6、使用算法:同SVM一样,AdaBoost预测两个类别中的一个。如果想把它应用在多个类别的场合,就要进行修改。

相关推荐
顾林海7 分钟前
Agent入门阶段-编程基础-Python:Python 开发环境与运行方式
python·agent·ai编程
叫我:松哥9 分钟前
基于深度卷积神经网络的水果图片分类算法设计与实现,有ResNet50的迁移学习模型,准确率达95%
人工智能·python·神经网络·机器学习·分类·cnn·迁移学习
KWTXX10 分钟前
测试工具-论文 MATLAB 仿真复现【成功】
开发语言·matlab
程序猿小三14 分钟前
福建省第一届“闽盾杯“网络安全职业技能竞赛 — 备赛学习路线
开发语言·网络安全·php
数据知道15 分钟前
视觉伪装(上):Canvas 指纹生成原理与 Skia 图形库底层注入噪声
开发语言·javascript·ecmascript·数据采集·指纹浏览器
金融小师妹17 分钟前
AI因子共振模型显示:金银比突破区间上沿,白银定价逻辑进入再校准阶段
人工智能·算法·均值算法·线性回归
Orchestrator_me21 分钟前
Python pip install报SSL错误
python·ssl·pip
开源量化GO22 分钟前
期货 K 线算信号 tick 级止损:天勤双序列 wait_update 触发规则
linux·运维·服务器·python
J2虾虾27 分钟前
C语言 typedef 用法
c语言·数据结构·算法
聆春烟雨簌簌30 分钟前
LangChain4j使用文档
开发语言·python