机器学习学习笔记

人工智能之父：约翰麦卡锡

机器学习之父：约翰塞缪尔

一.机器学习概述

人工智能，机器学习，深度学习

人工智能：是研究智能行为的计算代理的合成和分析的领域，用电脑模拟人脑

给一段文本视频或者文件，预测判断

机器学习：赋予计算机学习能力而不需要明确编程的研究领域

给大量数据集，挑选目标集合

深度学习：也叫深度神经网络，大脑仿生，设计一层层的神经元模拟万事万物

把现实世界中的样本分类，根据不同标签，做成库

机器学习是实现人工智能的一种途径，深度学习是机器学习的一种方法发展而来的

算法的学习方式：1.基于规则：传统if-else变成

2.基于模型：基于模型训练

ai的期望：期望ai像人一样思考，期望ai像人一样理性的思考，期望像人一样行动，期望像人一样理性的行动

ai发展三要素：数据，算法，算力

CPU适合IO密集型任务，GPU适合计算密集型任务，TPU专门针对大型网格训练设计的处理器

样本，特征，标签，训练集，测试集

样本：一行数据就是一个样本，有时也叫记录，多个样本组成数据集

特征：一列数据一个特征，有时也叫属性

标签：模型要预测的那一列数据

数据集一般划分成两部分，比例8：2或者7：3

训练集：用于训练模型的数据集

测试集：用于测试模型的数据集

有监督学习，无监督学习，半监督学习，强化学习

有监督学习：输入数据是由输入特征值和目标值组成，即输入的训练数据是有标签的

数据集需要标注数据的标签和目标值

标签连续则是回归问题，标签不连续则是分类问题

分类方法：计算欧氏距离最短的几个样本对应的标签，通过投票决定结果

无监督学习：输入的数据没有标记，即样本数据类别未知，没有标签，根据样本间的相似性，对样本集聚类，以发现结构以及相关关系

通过样本间的相似性对样本聚类，发现事物内部结构及相互关系

半监督学习：专家标注少量数据，利用已经标记的数据训练模型，再通过该模型套用未标记的数据

大幅降低专家标记成本

强化学习：寻找最短路径（最优解）获取最多奖励

四个要素：agent，环境状态，奖励，动作

机器学习建模流程

加载数据：搜集与完成机器学习任务相关的数据集，获取经验数据，图像数据，文本数据

数据预处理：缺失值处理，异常值处理

特征工程：特征提取，特征与处理，特征降维

模型训练：线性回归，逻辑回归，决策树，GBDT

模型评估：回归评测指标，分类评测指标，聚类评测指标

模型预测

特征工程

利用专业背景知识和技巧处理数据，让机器学习算法效果最好

特征提取

原始数据中提取与任务相关的特征，构成特征向量

特征预处理

不同特征对模型影响一致性

归一化处理：（当前值-最小值）/（最大值-最小值）

特征的单位或者大小相差较大，或者某个特征的方差过大，容易影响目标结果，使一些算法无法学习到其他特征

适用于传统精确小数据场景，如果出现异常点，影响最大最小值，则会对结果产生影响

标准化处理：（当前值-平均值）/标准差

适用于大数据集的处理

出现异常点由于有一定的数据量，少量异常点对平均值影响不大

特征降维

将原始数据的维度降低，保证数据的主要信息保留下来

特征选择

选取与任务相关的重要特征集合子集训练模型

特征组合

多个特征合成一个特征

模型拟合问题

拟合：在机器学习领域，用来表示模型对样本点的拟合情况

欠拟合：模型在训练集测试集表现都不好

训练数据不足，模型过于简单

过拟合：模型在训练集表现好，在测试集表现不好

训练数据不足，模型过于复杂，数据不纯

泛化：模型在新数据集上的表现好坏的能力，拟合能力就是泛化能力

奥卡姆剃刀原则：具有两个相同泛化误差的模型，较简单的模型比较复杂的模型更可取

环境搭建

pip install scikit-learn安装数据挖掘和数据分析库，基于python

KNN算法

k近邻算法：如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别，则该样本也属于这个类别

基于样本相似性，如果样本是属于一个任务数据集的，样本距离越近则越相似

k值小会导致过拟合，容易受到异常点影响，模型复杂

k值大会导致欠拟合，容易受到样本均衡问题，模型简单，k为n时，只会按照训练集中最多的类别预测

分类流程：前k个训练样本投票

回归流程：前k个样本平均值

距离计算

欧氏距离：对应维度数值平方和开平方根

切比雪夫距离：对应维度差值的最大值

曼哈顿距离（城市街区距离）：对应维度差值的绝对值之和

闵式距离：对应维度差值绝对值的p次方之和开p次根