人工智能三大概念:
知道AI,ML,DL是什么
AI:用计算机模拟人脑,让计算机能够像人类一样理性的思考和行动
ML:基于经验找规律;先训练(根据训练集找规律,找公式),再预测,最后评估
DL:基于自己构建出来的知识库
AI:给出一张图片,判断是否为西瓜
ML:结合大量有关西瓜的资料(图片,音频,文本等等),总结出规律,如何挑选一个好西瓜
DL:基于西瓜的各种资料(价格,产地,口感),搭建自己的知识库
了解AI,ML,DL之间关系
AI包含ML,ML包含DL(先辨别是不是西瓜,再判断是不是一个好西瓜,最后判断西瓜的品种)
算法的学习方式:
基于规则的学习,基于模型的学习
机器学习常用术语
知道样本是什么,知道特征是什么
样本:一行数据就是一个样本,多个样本组成数据集,有时一条样本被叫成一条记录
特征:一列数据一个特征,有时也被称为属性
知道标签/目标值是什么
标签/目标:要求和预测的结果那一列数据
理解数据集划分方法
数据集划为两部分:训练集和测试集,通常为8:2或者7:3
x_train y_train 训练集特征,训练集标签
x_test y_test 测试集特征,测试集标签
机器学习算法分类
知道有监督学习是什么
有特征有标签
有监督分类问题&回归问题
标签连续就是回归,标签不连续就是分类
分类种类:二分类,多分类
知道无监督学习是什么
有特征无标签,根据样本之间相似性对样本进行聚类,发现事务结构及相互关系(聚类)
知道半监督学习是什么
部分有标签部分无标签
1,让专家标注少量数据,利用已经标记的数据训练一个模型
2,利用该模型套用未标记的数据
3,询问领域专家分类结果和模型分类结果做对比,从而对模型进一步改善和提高
半监督学习可以大幅减低标记成本
了解强化学习是什么
强化学习=寻找最短路径(最优解),以便获取最多的奖励
就好比在OJ上(Environment)做题(Action),做对了给予AC(Reward),做错了给予WA(State)

机器学习建模流程
获取数据:搜集和完成机器学习任务相关的数据集
数据基本处理:数据集中异常值,异常值的处理等
特征工程:对数据集特征进行提取,转为向量,让模型达到最好的结果
机器学习(模型训练):选择合适的算法对模型进行训练,根据不同的任务来选中不同的算法
模型评估:评估效果好上线服务,评估效果不好则重复上述步骤
特征工程
知道特征工程是什么
理解特征提取的作用
理解特征预处理的作用
了解特征降维,特征选择,特征组合
利用专业背景知识和技巧处理数据,让机器学习算法效果最好
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已
特征提取,从原始数据中提取与任务相关的特征,会改变原数据
特征预处理------>归一化,标准化
防止量纲导致某些特征对模型影响大,有些影响小
量纲:即单位(米,千克等)
打个比方:
|----------|----------|----------|
| 特征1(单位A) | 特征2(单位B) | 特征3(单位C) |
| 90 | 2 | 12 |
| 100 | 4 | 20 |
| 120 | 3 | 15 |
归一化过程:x' =(当前值 - 最小值)/(最大值 - 最小值)
|----------|----------|----------|
| 特征1(单位A) | 特征2(单位B) | 特征3(单位C) |
| 0 | 0 | 0 |
| 0.333 | 1 | 1 |
| 1 | 0.5 | 0.375 |
如果为最小值,那么归一化得到的为0,如果为最大值,那么归一化得到的为1
特征降维:将原始数据维度降低,叫做特征降维,一般对原始数据产生影响,保证数据的主要信息保留下来
特征选择:选择一个与任务相关的特征子集,不会改变原数据
(就好比体检不需要你的学历,薪资这种特征)
特征组合:多个特征合成一个特征,利用乘法或者加法完成(BMI)