sklearn监督学习--k近邻算法

sklearn监督学习

一、分类与回归
二、泛化、过拟合与欠拟合
三、k近邻算法
四、分析KNeighborsClassifier
五、k近邻算法用于回归
- 优点、缺点和参数

一、分类与回归

监督学习是最常用也是最成功的机器学习类型之一。监督机器学习问题主要有两种，分别叫做分类与回归。分类问题的目标是预测类别标签，这些标签来自预定义的可选列表。分类问题有时可分为二分类（在两个类别之间进行区分的一种特殊情况）和多分类（在两个以上的类别之间进行区分）。

回归任务的目标是预测一个连续值。根据教育水平、年龄和居住地来预测一个人的年收入，这就是回归的一个例子。在预测收入时，预测值是一个金额，可以在给定范围内任意取值。

区分分类任务和回归任务有一个简单办法，就是问一个问题：输出是否具有某种连续性。如果在可能的结果之间具有连续性，那么它就是一个回归问题。

二、泛化、过拟合与欠拟合

在监督学习中，我们想要在训练数据上构建模型，然后能够对没见过的新数据做出准确预测。如果一个模型能够对没见过的数据做出准确预测，我们就说它能够从训练集泛化到测试集。

判断一个算法在新数据上表现好坏的唯一度量，就是在测试集上的评估。然而从直觉上看，我们认为简单的模型对新数据的泛化能力更好。构建一个对现有信息量来说过于复杂的模型，被称为过拟合 。如果你在拟合模型时过分关注训练集的细节，得到了一个在训练集上表现很好、但不能泛化到新数据上的模型，那么就存在过拟合。与之相反，如果你的模型过于简单，那么你可能无法抓住数据的全部内容以及数据中的变化，你的模型甚至在训练集上的表现就很差。选择过于简单的模型被称为欠拟合 。

我们的模型越复杂，在训练数据上的预测结果就越好。但是，如果我们的模型过于复杂，我们开始过多关注训练集中每个单独的数据点，模型就不能很好地泛化到新数据上。二者之间存在一个最佳位置，可以得到最好的泛化性能。

另外，收集更多数据，适当构建更复杂的模型，对监督学习任务往往特别有用。

三、k近邻算法

先来看一个数据集，它是一个模拟的二分类数据集，叫做forge。它有两个特征，下面代码将绘制一个散点图，将此数据集的所有数据点可视化。图像以第一个特征为x轴，第二个特征为y轴。

python 复制代码

import mglearn
import matplotlib.pyplot as plt
# 生成数据集
X, y = mglearn.datasets.make_forge()
# 数据集绘图
mglearn.discrete_scatter(X[:, 0], X[:, 1], y)
plt.legend(["Class 0", "Class 1"], loc=4)
plt.xlabel("First feature")
plt.ylabel("Second feature")

得到如下的图形：

k-NN算法可以说是最简单的机器学习算法。构建模型只需要保存训练数据集即可。想要对新数据点做出预测，算法会在训练数据集中找到最近的数据点，也就是它的"最近邻"。

k-NN算法最简单的版本只考虑一个最近邻，也就是与我们想要预测的数据点最近的训练数据点。预测结果就是这个训练数据点的已知输出。下图给出了这种分类方法在forge数据集上的应用：

python 复制代码

mglearn.plots.plot_knn_classification(n_neighbors=1)

这里我们添加了3个新数据点（用五角星表示）。对于每个新数据点，我们标记了训练集中与它最近的点。单一最近邻算法的预测结果就是那个点的标签（对应五角星的颜色）。除了仅考虑最近邻，我们还可以考虑任意k个邻居，这也是k近邻算法名字的来历。在考虑多于一个邻居的情况时，我们用投票法来指定标签。也就是说，对于每个测试点，我们数一数多少个邻居属于类别0，多少个邻居属于类别1。然后将出现次数更多的类别作为预测结果。下面的例子用到了3个近邻：

python 复制代码

mglearn.plots.plot_knn_classification(n_neighbors=3)

和上面一样，预测结果可以从五角星的颜色看出。可以发现，左上角新数据点的预测结果与只用一个邻居时的预测结果不同。

接下来，使用sklearn的k近邻算法。

python 复制代码

import mglearn
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

X, y = mglearn.datasets.make_forge()
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
# 实例化类，邻居的个数设为3
clf = KNeighborsClassifier(n_neighbors=3)

现在，利用训练集对这个分类器进行拟合。对于KNeighborsClassifier来说就是保存数据集，以便在预测时计算与邻居之间的距离：

python 复制代码

clf.fit(X_train, y_train)

调用predict方法来对测试数据进行预测。对于测试集中的每个数据点，都要计算它在训练集的最近邻，然后找出其中出现次数最多的类别：

为了评估模型的泛化能力好坏，我们可以对测试数据和测试标签调用score方法：

可以看到，我们的模型精度约为86%，也就是说，在测试数据集中，模型对其中86%的样本预测的类别都是正确的。

四、分析KNeighborsClassifier

对于二维数据集，我们还可以在xy平面上画出所有可能得测试点的预测结果。我们根据平面中每个点所属的类别对平面进行着色。这样可以查看决策边界，即算法对类别0和类别1的分界线。下面代码分别将1个、3个和9个邻居3中情况的决策边界可视化：

python 复制代码

fig, axes = plt.subplots(1, 3, figsize=(10, 3))

for n_neighbors, ax in zip([1, 3, 9], axes):
    clf = KNeighborsClassifier(n_neighbors=n_neighbors).fit(X, y)
    mglearn.plots.plot_2d_separator(clf, X, fill=True, eps=0.5, ax=ax, alpha=.4)
    mglearn.discrete_scatter(X[:, 0],X[:, 1], y, ax=ax)
    ax.set_title(f"{n_neighbors} neighbors")
    ax.set_xlabel("feature 0")
    ax.set_ylabel("feature 1")

可视化结果如下：

五、k近邻算法用于回归

k近邻算法还可以用于回归。我们还是先从单一近邻开始，这次使用wave数据集。我们添加了3个测试数据点，在x轴上用绿色五角星表示。利用单一邻居的预测结果就是最近邻的目标值：

python 复制代码

mglearn.plots.plot_knn_regression(n_neighbors=1)

如下图所示：

同样，也可以用多个近邻进行回归。在使用多个近邻时，预测结果为这些邻居的平均值：

python 复制代码

mglearn.plots.plot_knn_regression(n_neighbors=3)

如下图所示：

用于回归的k近邻算法在sklearn的KNeighborsRegressor类中实现。其用法与KNeighborsClassifier类似：

python 复制代码

from sklearn.neighbors import KNeighborsRegressor

X, y = mglearn.datasets.make_wave(n_samples=40)

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
# 模型实例化，并将邻居个数设为3
reg = KNeighborsRegressor(n_neighbors=3)
reg.fit(X_train, y_train)

我们还可以用score方法来评估模型，对于回归问题，这一方法返回的是R²分数。R²分数也叫作决定系数，是回归模型预测的优度度量，位于0到1之间。R²等于1对应完美预测，R²等于0对应常数模型，即总是预测训练集响应（y_train）的平均值：

分数是0.83，表示模型的拟合相对较好。

优点、缺点和参数

一般来说，KNeighbors分类器有2个重要参数：邻居个数与数据点之间距离的度量方法。在实践中，使用较小的邻居个数（比如3个或5个）往往可以得到比较好的结果，但你应该调节这个参数。距离度量方法默认使用欧式距离，它在许多情况下的效果都很好。

k-NN的优点之一就是模型很容易理解，通常不需要过多调节就可以得到不错的性能。在考虑使用更高级的技术之前，尝试此算法是一种很好的基准方法。构建最近邻模型的速度通常很快，但如果训练集很大（特征数很多或者样本数很大），预测速度可能会比较慢。使用该算法时，对数据进行预处理很重要。这一算法对于有很多特征（几百或更多）的数据集往往效果不好，对于大多数特征的大多数取值都为0的数据集来说，这一算法的效果尤其不好。

虽然k近邻算法很容易理解，但由于预测速度慢且不能处理具有很多特征的数据集，所以在实践中往往不会用到。