一、什么是机器学习
就是让机器处理特定任务,先给它大量经验数据当基础
得有个标准来评判任务完成得好不好
机器通过分析这些数据,能把任务完成得越来越棒
比如2016年阿尔法围棋战胜李世石,就是机器学习的成果
二、机器学习应用领域
包括模式识别、计算机视觉、数据挖掘、语音识别、自然语言处理等等
三、机器学习基本术语
数据集:就是一堆数据记录的集合
样本:数据集中的每条记录,是对一个事件或对象的描述
特征(属性):能反映事件或对象某方面表现或性质的东西,比如西瓜的"色泽"
属性空间(样本空间):由属性构成的空间
向量表示:每个样本可以用一个向量来表示,向量的维数就是样本的属性个数
训练集:用来训练模型的数据,里面有"正确答案"(标记信息),比如带"好瓜"标记的西瓜数据
测试集:用来测试模型好坏的数据,比如一些不知道是不是好瓜的西瓜数据
四、监督学习和无监督学习
监督学习:用有"正确答案"(标记)的样本训练模型
分类:模型输出的是有限的离散值,比如判断西瓜是好瓜还是坏瓜
回归:模型输出的是某个范围内的连续值,比如预测房屋价格
无监督学习:只有数据,没有标记信息
聚类:比如把样本分成几类
还能用于推荐,比如向买尿布的人推荐葡萄酒
五、集成学习
就是构建多个学习器,然后把它们结合起来完成学习任务。
六、模型评估与选择
几个重要概念
错误率:分类错的样本数占总样本数的比例
精度:1减去错误率
残差:模型预测输出和真实输出的差异
训练误差(经验误差):模型在训练集上的误差
泛化误差:模型在新样本上的误差
损失函数:衡量预测误差大小的函数,损失函数越小,模型越好
欠拟合和过拟合
欠拟合:模型没抓住数据特征,对数据拟合不好,是因为学的特征不够
过拟合:把训练数据学太透,连噪声都学了,导致在新数据上表现差,泛化能力弱
过拟合的处理方式
增加训练数据,让模型学更多有效特征
降维,丢掉没用的特征
用正则化技术,减小参数大小
用集成学习方法,降低单一模型的过拟合风险
欠拟合的处理方式
添加新特征,让特征更丰富
增加模型复杂度,提高拟合能力
减小正则化系数
选择模型的原则
奥卡姆剃刀原理:选能解释数据且简单的模型,别为了减小训练误差把模型弄复杂
没有免费的午餐:没有哪种算法对所有问题都有效,得结合具体问题说优劣
七、模型评估方法
留出法
把数据集分成训练集和测试集,通常比例7:3
要注意保持数据分布一致,用分层采样;多随机划分几次避免不稳定
交叉验证法
把数据集分成k个相似子集,每次用k-1个当训练集,1个当测试集
做k次训练和测试,取k个结果的均值,也叫k折交叉验证
八、评估指标
TP、FP、TN、FN
TP:把正类正确预测为正类的数量
FP:把反类错误预测为正类的数量
TN:把反类正确预测为反类的数量
FN:把正类错误预测为反类的数量
查准率(P)和查全率(R)
查准率P:预测为正类的样本中,真正是正类的比例,公式为TP/(TP+FP)
查全率R:所有正类样本中,被正确预测为正类的比例
两者通常此消彼长
P-R图:直观显示查全率和查准率,一个曲线被另一个包住,说明后者性能更好;交叉的话难分优劣