一、什么是机器学习
机器学习的英文名称叫Machine Learning,简称ML,该领域主要研究的是如何使计算机能够模拟人类的学习行为从而获得新的知识。
机器学习与数据挖掘的联系:简单来说,机器学习就是让计算机从大量
的数据中学习到相关的规律和逻辑,然后利用学习来的规律来预测以后的未知事物。
机器学习中非常重要的概念:训练,预测,模型
二、机器学习的分类
- 按任务类型进行分类
- 按监督模式进行分类
- 最新方向:增强学习和深度学习
三、机器如何学习
通过模拟人类学习的步骤进行:
机器学习的六大步骤:
四、机器学习框架
scikit-learn(sklearn)是机器学习中一个常用的python第三方模块,网址:http://scikit-learn.org/stable/index.html
基于Scipy,Numpy,扩展,对一些常用的机器学习方法进行了封装
高扩展,spark等采用相同框架
五、示例(iris数据集进行展示)
数据集内容:
第一步:导入数据 & 数据分割
第二步:使用sklearn进行模型选择
第三步:使用sklearn进行模型训练
第四步:使用sklearn进行模型预测
第五步:机器学习评价的指标
如何实现:
交叉验证出现的原因:
- 即使模型在训练集上表现良好,往往其在测试集上可能会出现表现不佳的情况。
- 验证集-初步的评估。
- 可用数据不够。
交叉验证的分类:
- 简单交叉验证
- K折叠交叉验证
- 留一交叉验证