【机器学习】scikit-learn调用KNN算法并手动模仿封装自己的KNN算法

模仿scikit-learn封装自己的knn算法

一、本文内容简介
二、重新认识机器学习
三、重新认识KNN算法
四、scikit-learn调用knn算法演示
五、重新认识KNN算法的封装
- [1. 实现思路](#1. 实现思路)
- [2. 封装过程](#2. 封装过程)

一、本文内容简介

本文详细介绍了scikit-learn库中机器学习算法的封装过程，特别是k近邻（knn）算法的实现与应用。视频从knn算法的基本原理出发，演示了如何将算法整理成函数，并通过断言确保输入数据的合法性。接着讲解了如何使用scikit-learn中的knn分类器进行预测，并说明了机器学习流程，包括数据训练和预测过程。此外，还讨论了如何自定义封装knn算法类，并进行了测试。视频强调了scikit-learn在机器学习算法封装上的统一性，并提示了在使用预测时需注意数据格式的问题。整体上，视频深入浅出地介绍了机器学习算法封装与调用的关键步骤和注意事项。

二、重新认识机器学习

机器学习流程包括训练数据集的准备 、模型的训练 、以及输入样例 的预测。
训练数据集包括特征矩阵 X_train和标签向量y_train。
模型训练过程通常称为fit ，输入样例的预测过程称为predict。

三、重新认识KNN算法

knn算法的基本原理是通过计算待预测样本与训练集中样本的距离，找到距离最近的k个样本，并统计这k个样本中最常见的类别作为预测结果。
算法过程包括断言验证输入数据的合法性，如k的值范围、训练数据集的特征数量等。
函数实现包括参数k、训练数据集X_train和y_train，以及待预测特征向量x。
knn算法是一种特殊的机器学习算法，可以认为是没有模型的算法。
训练数据集本身就是knn算法的模型。
knn算法的fit 过程相对简单，主要是拷贝训练数据集。
scikit-learn中的knn算法
1. scikit-learn是一个流行的机器学习库，提供了丰富的算法实现。
2. knn算法在scikit-learn中通过kneighborsclassifier类进行封装。
3. 创建kneighborsclassifier实例并传入n_neighbors参数（即k的值）进行训练和预测。

四、scikit-learn调用knn算法演示

准备好训练数据集和预测向量

python 复制代码

import numpy as np
import matplotlib.pyplot as plt

# 原始数据集X
raw_data_X = [[3.393533211, 2.331273381],
              [3.110073483, 1.781539638],
              [1.343808831, 3.368360954],
              [3.582294042, 4.679179110],
              [2.280362439, 2.866990263],
              [7.423436942, 4.696522875],
              [5.745051997, 3.53398803],
              [9.172168622, 2.511101045],
              [7.792783481, 3.424088941],
              [7.939820817, 0.791637231]]
# 原始标签数据集y，前五个元素是0表示一种类型，后五个元素是1表示另外一种类型
raw_data_y = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]

# 训练集: 将原始数据集转成numpy中的array类型
X_train = np.array(raw_data_X)
y_train = np.array(raw_data_y)

# 新样本x
x = np.array([8.093607318, 3.365731514])

引入scikit-learn中的Knn算法，并运行：

如果你还没有安装scikit-learn，则需要在cmd中先安装:

shell 复制代码

pip install scikit-learn

然后在jupyter中引入：

python 复制代码

from sklearn.neighbors import KNeighborsClassifier as kncf
# 其中6为k的值，即k=6，该函数返回一个KNeighborsClassifer对象
knn_clf = kncf(n_neighbors=6) 
# 开始fit的过程，即训练模型，fit返回模型本身
knn_clf.fit(X_train,y_train)
# 由于predict函数需要传入的是一个向量，而x新样本是一个数组，因此需要先将x变成一个向量
X_predict_params = x.reshape(1,-1)  # 这里将x变成矩阵的形式，第一个1表示第一个数组，而-1表示让numpy自动决定有多少个元素
# 再调用predict函数
y_predict = knn_clf.predict(X_predict_params)
# 由于返回是[1]向量，故需要取出其最后的预测值
y_predict[0]

执行结果如下：

五、重新认识KNN算法的封装

1. 实现思路

将knn算法整理成函数形式，包括断言验证和算法核心逻辑。
函数接受参数k、训练数据集x_train和y_train，以及待预测特征向量x。
函数返回待预测样本x所属的类别。

2. 封装过程

自定义一个knnclassifier类，实现knn算法的核心逻辑。
类中包含构造函数、fit方法（用于训练模型）和predict方法（用于预测新样本的类别）。
predict方法计算待预测样本与训练集之间的距离，找到最近的k个样本，并统计最常见的类别作为预测结果。

完整代码如下：

python 复制代码

import numpy as np
from math import sqrt
from collections import Counter


class KNNClassifier:
    # 定义构造函数
    def __init__(self, k):
        # 初始化KNN分类器
        assert k >= 1, "k must be valid"
        self.k = k
        self._X_train = None  # 自定义私有的训练数据集变量
        self._y_train = None  # 自定义私有的标签向量

    # 根据训练数据集X_train和y_train来训练KNN分类器
    def fit(self, X_train, y_train):
        # 代码健壮性考虑，增加断言
        assert X_train.shape[0] == y_train.shape[0], \
            "the size of X_train must be equal to the size of y_train."

        assert self.k <= X_train.shape[0], \
            "the size of X_train must be at least k."

        self._X_train = X_train
        self._y_train = y_train
        return self

    # 自定义predict函数，用于对待预测的数据集进行预测
    def predict(self, X_predict):
        assert self._X_train is not None and self._y_train is not None, \
            "must fit before predict!"
        assert X_predict.shape[1] == self._X_train.shape[1], \
            "the feature number of x must be equal to X_train."

        y_predict = [self._predict(x) for x in X_predict]

        return np.array(y_predict)  # 结果为返回np中的数组类型

    # 内部私有的函数，是真正KNN算法的实现过程
    # 函数实现的功能：给定单个待预测数据x，返回x的预测结果
    def _predict(self, x):
        assert x.shape[0] == self._X_train.shape[1], \
            "the feature number of x must be equal to X_train."
        # 计算两点之间的欧式距离
        distences = [sqrt(np.sum((x_train - x) ** 2)) for x_train in self._X_train]

        # 对距离进行排序
        nearest = np.argsort(distences)

        # 求出k个最近的点所在_y_train中的值
        topK_y = [(self._y_train[i]) for i in nearest[: self.k]]

        # 统计最近k个点的在topK_y中的总数，该总数相当于投票数
        votes = Counter(topK_y)

        # 根据votes投票数，将在y_train中投票数最多的类型（值）返回
        ret_predict = votes.most_common(1)[0][0]

        return ret_predict

    # __repr__ 方法的主要作用是返回一个对象的字符串表示形式，这个字符串表示通常是为开发者服务的，目的是提供一个明确且可用于调试的对象描述。
    # 当你在交互式环境中输入对象名称或者使用 repr() 函数时，Python 会调用对象的 __repr__ 方法来获取对象的字符串表示。
    def __repr__(self):
        return "KNN(k=%d)" % self.k

在jupyer中调用，如下所示：