人工智能之父:约翰麦卡锡
机器学习之父:约翰塞缪尔
一.机器学习概述
人工智能,机器学习,深度学习
人工智能:是研究智能行为的计算代理的合成和分析的领域,用电脑模拟人脑
给一段文本视频或者文件,预测判断
机器学习:赋予计算机学习能力而不需要明确编程的研究领域
给大量数据集,挑选目标集合
深度学习:也叫深度神经网络,大脑仿生,设计一层层的神经元模拟万事万物
把现实世界中的样本分类,根据不同标签,做成库
机器学习是实现人工智能的一种途径,深度学习是机器学习的一种方法发展而来的
算法的学习方式:1.基于规则:传统if-else变成
2.基于模型:基于模型训练
ai的期望:期望ai像人一样思考,期望ai像人一样理性的思考,期望像人一样行动,期望像人一样理性的行动
ai发展三要素:数据,算法,算力
CPU适合IO密集型任务,GPU适合计算密集型任务,TPU专门针对大型网格训练设计的处理器
样本,特征,标签,训练集,测试集
样本:一行数据就是一个样本,有时也叫记录,多个样本组成数据集
特征:一列数据一个特征,有时也叫属性
标签:模型要预测的那一列数据
数据集一般划分成两部分,比例8:2或者7:3
训练集:用于训练模型的数据集
测试集:用于测试模型的数据集
有监督学习,无监督学习,半监督学习,强化学习
有监督学习:输入数据是由输入特征值和目标值组成,即输入的训练数据是有标签的
数据集需要标注数据的标签和目标值
标签连续则是回归问题,标签不连续则是分类问题
分类方法:计算欧氏距离最短的几个样本对应的标签,通过投票决定结果
无监督学习:输入的数据没有标记,即样本数据类别未知,没有标签,根据样本间的相似性,对样本集聚类,以发现结构以及相关关系
通过样本间的相似性对样本聚类,发现事物内部结构及相互关系
半监督学习:专家标注少量数据,利用已经标记的数据训练模型,再通过该模型套用未标记的数据
大幅降低专家标记成本
强化学习:寻找最短路径(最优解)获取最多奖励
四个要素:agent,环境状态,奖励,动作
机器学习建模流程
加载数据:搜集与完成机器学习任务相关的数据集,获取经验数据,图像数据,文本数据
数据预处理:缺失值处理,异常值处理
特征工程:特征提取,特征与处理,特征降维
模型训练:线性回归,逻辑回归,决策树,GBDT
模型评估:回归评测指标,分类评测指标,聚类评测指标
模型预测
特征工程
利用专业背景知识和技巧处理数据,让机器学习算法效果最好
特征提取
原始数据中提取与任务相关的特征,构成特征向量
特征预处理
不同特征对模型影响一致性
归一化处理:(当前值-最小值)/(最大值-最小值)
特征的单位或者大小相差较大,或者某个特征的方差过大,容易影响目标结果,使一些算法无法学习到其他特征
适用于传统精确小数据场景,如果出现异常点,影响最大最小值,则会对结果产生影响
标准化处理:(当前值-平均值)/标准差
适用于大数据集的处理
出现异常点由于有一定的数据量,少量异常点对平均值影响不大
特征降维
将原始数据的维度降低,保证数据的主要信息保留下来
特征选择
选取与任务相关的重要特征集合子集训练模型
特征组合
多个特征合成一个特征
模型拟合问题
拟合:在机器学习领域,用来表示模型对样本点的拟合情况
欠拟合:模型在训练集测试集表现都不好
训练数据不足,模型过于简单
过拟合:模型在训练集表现好,在测试集表现不好
训练数据不足,模型过于复杂,数据不纯
泛化:模型在新数据集上的表现好坏的能力,拟合能力就是泛化能力
奥卡姆剃刀原则:具有两个相同泛化误差的模型,较简单的模型比较复杂的模型更可取
环境搭建
pip install scikit-learn安装数据挖掘和数据分析库,基于python

KNN算法
k近邻算法:如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别
基于样本相似性,如果样本是属于一个任务数据集的,样本距离越近则越相似
k值小会导致过拟合,容易受到异常点影响,模型复杂
k值大会导致欠拟合,容易受到样本均衡问题,模型简单,k为n时,只会按照训练集中最多的类别预测
分类流程:前k个训练样本投票
回归流程:前k个样本平均值
距离计算
欧氏距离:对应维度数值平方和开平方根
切比雪夫距离:对应维度差值的最大值
曼哈顿距离(城市街区距离):对应维度差值的绝对值之和
闵式距离:对应维度差值绝对值的p次方之和开p次根