快速了解—机器学习、K-近邻算法及其API

一、ML机器学习（Machine Learning）

1、应用领域：数据挖掘、自然语言处理 NLP、计算机视觉 CV等。

2、发展的三要素：数据、算法、算力

3、相关术语

机器学习模型 = 数据 + 算法

数据：用于训练模型

样本（sample）：一行数据

特征（feature）：一列数据（必须和目标相关）

标签（label）/目标（target）：要预测的值，即答案列

数据集：训练集、测试集

x_train：训练集的特征值

y_train：训练集的目标值

x_test：测试集的特征值

y_test：测试集的目标值

二、算法分类（根据数据是否有标签）

1、有监督：监督学习的算法，要求数据一定要有目标值

回归问题：目标值是连续取值（房价、薪水）

分类问题：目标值是类别型（二分类、三分类、多分类）

2、无监督：没有目标值，无反馈

典型场景聚类，获得标签的成本太高，可以采用无监督的方式（反欺诈）

3、半监督：一部分数据有标签、一部分数据没有标签

三、建模流程

1、获取数据

2、数据基本处理：空值、异常、重复

3、特征工程

特征提取：原始数据中提取与任务相关的特征，构成特征向量

预处理、降维、选择、组合

4、模型训练（调参）：线性回归、逻辑回归、决策树、GBDT

5、模型评估：回归评测指标、分类评测指标、聚类评测指标

四、模型拟合

1、分类

欠拟合：模型在训练集和测试集表现都很差

产生原因：模型过于简单，特征过少

解决办法：添加其他特征；添加多项式特征项

过拟合：训练集表现很好，测试集表现很差

产生原因：模型过于复杂、数据不纯、训练数据太少

解决方法：重新清洗数据，增大训练数据的样本量，正则化，减少特征维度

Early stopping：当模型训练到某个固定的验证错误率阈值时，及时停止模型训练

2、正则化

异常点数据造成权重系数过大、过小，尽量减少这个特征的影响（甚至删除某个特征的影响），这就是正则化。

为了减少过拟合的影响，控制模型的参数。尤其是高次项的权重参数

L1正则化：使得权重趋向于 0，甚至等于 0，使得某些特征失效，达到特征筛选的目的

导包：from sklearn.linear_model import Lasso

正则化：estimator = Lasso ( alpha = 0.005，normalize = True )

a：惩罚系数，该值越大则权重调整的幅度就越大

L2正则化：使得权重趋向于 0，一般不等于 0，对高次方项系数影响较大

tips：工程开发常用，产生一些平滑的权重系数

岭回归导包：from sklearn.linear_model import Ridge

正则化：estimator = Ridge( alpha = 0.005，normalize = True )

五、KNN（K-近邻算法）

1、概述

通过计算距离来判断样本之间的相似程度，距离越近两个样本就越相似, 就可以划归到一个类别中

2、算法思想

如果一个样本在特征空间中的 k 个最相似的样本中的大多数属于某一个类别，则该样本也属于这个类别

3、样本相似性

样本都属于一个任务数据集，样本距离越近越相似

4、基本流程

使用KNN算法对一个样本进行分类
计算当前样本和其它样本, 特征取值之间的距离，按距离从小到大进行排序
确定K值 : 离该样本最近的K个样本
通过这K个样本的类别确定当前样本的类别

5、K（超参数）可调

K越小模型越复杂容易受到异常点的影响，过拟合

K越大模型越简单受到数据分布的影响，欠拟合

当K = 样本数量的时候, 模型结果是确定的结果

6、API

K-近邻导包

python 复制代码

from sklearn.neighbors import KNeighborsClassifier,KNeighborsRegressor

KNeighborsClassifier k-近邻（分类）

KNeighborsRegressor k-近邻（回归）

创建 K近邻的分类器 / 回归器

knn = KNeighborsClassifier(n_neighbors = 1)

n_neighbors：即K值，样本个数

调用fit 模型训练

knn.fit(x, y) x 训练集特征值

y 训练集目标值

使用训练好的模型进行预测

knn.predict ( [[4,4,5]] )

tips：训练时的维度与预测时传入的维度要相同

7、距离的度量方式

欧氏距离：两点之间的直线距离

曼哈顿距离：

切比雪夫距离：

闵可夫斯基距离：多种距离的总的表示公式

p = 1 曼哈顿，p = 2 欧氏距离，p = ∞ 切比雪夫距离

六、特征工程

1、归一化 / 标准化：可以把量纲不统一的特征，缩放到同一取值范围内

2、归一化（受异常值影响）

归一化导包：from sklearn.preprocessing import MinMaxScaler
创建一个 Scaler 对象：scaler = MinMaxScaler ( )
调用fit 模型训练：scaler.fit(x)

fit 就是在计算每一列特征的最大值和最小值, 并保存到 scaler 对象中

Transform 得到缩放之后的结果：scaler.transform(x)

Transform 变化，利用上一步计算出来的 最大最小值, 作用到原始数据上，得到缩放之后的结果

3、标准化

标准化导包：from sklearn.preprocessing import StandardScaler
创建一个 Scaler 对象：scaler = StandardScaler ( )
调用fit 模型训练：scaler.fit(x)

fit 就是在计算每一列特征的均值和方差, 并保存到 scaler 对象中

Transform 得到缩放之后的结果：scaler.transform(x)

Transform 变化，利用上一步计算出来的均值和方差, 作用到原始数据上，得到缩放之后的结果