《机器学习》——KNN算法

文章目录

KNN算法简介
KNN算法------sklearn
- sklearn是什么？
- [sklearn 安装](#sklearn 安装)
- [sklearn 用法](#sklearn 用法)
[KNN算法 ------距离公式](#KNN算法 ——距离公式)
KNN算法------实例
- 分类问题
- - 完整代码------分类问题
- 回归问题
- - [完整代码 ------回归问题](#完整代码 ——回归问题)

KNN算法简介

一、KNN介绍
- 全称是k-nearest neighbors，通过寻找k个距离最近的数据，来确定当前数据值的大小或类别。是机器学习中最为简单和经典的一个算法。
二、KNN算法的基本要素
- K值的选择：K值代表选择与新测试样本距离最近的前K个训练样本数，通常K是不大于20的整数。K值的选择对算法结果有重要影响，需要通过交叉验证等方法来确定最优的K值。
- 距离度量：常用的距离度量方式包括闵可夫斯基距离、欧氏距离、曼哈顿距离、切比雪夫距离、余弦距离等。其中，欧氏距离在KNN算法中最为常用。
- 分类决策规则：一般采用多数投票法，即选择K个最相似数据中出现次数最多的类别作为新数据的分类。
三、KNN算法的工作流程
- 准备数据：对数据进行预处理，包括收集、清洗和归一化等步骤，以确保所有特征在计算距离时具有相等的权重。
- 计算距离：计算测试样本点到训练集中每个样本点的距离。
- 排序与选择：根据距离对样本点进行排序，并选择距离最小的K个样本点作为测试样本的邻居。
- 分类决策：根据K个邻居的类别信息，采用多数投票法确定测试样本的类别。
四.KNN算法的优缺点
- 优点：
  1.简单，易于理解，易于实现，无需训练;
  2.适合对稀有事件进行分类;
  3.对异常值不敏感。
- 缺点：
  1.样本容量比较大时，计算时间很长;
  ⒉.不均衡样本效果较差;

KNN算法------sklearn

sklearn是什么？

Sklearn (Scikit-Learn) 是基于 Python 语言的第三方机器学习库。它建立在 NumPy, SciPy, Pandas 和 Matplotlib库之上，里面的 API 的设计非常好，所有对象的接口简单，很适合新手上路。

sklearn 安装

python 复制代码

pip install scikit-learn
# 也可以自行选择版本，注意不同版本可能会有差异，还可以在后面加-i 镜像地址
# 如：
pip install scikit-learn==1.0.2 -i https://pypi.mirrors.ustc.edu.cn/simple/

sklearn 用法

使用sklearn官网API：https://scikit-learn.org/，knn算法的介绍搜索k-nearest neighbors，注意版本1.0和1.2问题。
sklearn中有两种KNN算法的用法：KNeighborsClassifier（分类问题）, KNeighborsRegressor（回归问题），故此要使用KNN算法时首先要判断需求是分类问题还是回归问题。

KNN算法 ------距离公式

等距离公式还有很多：距离公式

KNN算法------实例

分类问题

导入模块

python 复制代码

import numpy as np
from sklearn.neighbors import KNeighborsClassifier
# sklearn中的neighbors模块的KNeighborsClassifier方法

导入数据

python 复制代码

data = np.loadtxt('datingTestSet2.txt')
# 使用numpy中的loadtxt方法读取txt文件，读取后内容为数组

提取数据
- data[:, -1]：这部分是数组的切片操作。data是一个二维数组，: 表示选取所有行，-1 表示选取最后一列。因此，data[:, -1] 获取了data数组中所有行的最后一列的数据。
- data[:, -1] == 1：这部分将上一步得到的所有最后一列的值与1进行比较，生成一个布尔数组（或类似布尔索引的结构），其中True表示对应位置的值为1，False表示不是1
- data[data[:, -1] == 1]：最后，这个布尔数组被用作索引来筛选data数组。具体来说，它会选取data中所有最后一列值为1的行。

python 复制代码

x = data[:,:-1]
# 逗号前后分别代表行和列，可以看出data[:,:-1]取从头到尾的行和从头到倒数第二个的列，且最后一个不取。
y = data[:,-1]
# 取从头到尾的行和最后一列。

KNN模型------KNeighborsClassifier
- API
class sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, *, weights='uniform', algorithm='auto', leaf_size=30, p=2, metric='minkowski', metric_params=None, n_jobs=None)
- n_neighbors : k值，邻居的个数，默认为5。【关键参数】
- weights : 权重项，默认uniform方法。
  Uniform：所有最近邻样本的权重都一样。【一般使用这一个】
  Distance：权重和距离呈反比，距离越近的样本具有更高的权重。【确认样本分布情况，混乱使用这种形式】
  Callable：用户自定义权重。
- algorithm ：用于计算最近邻的算法。
  ball_tree：球树实现
  kd_tree：KD树实现, 是一种对n维空间中的实例点进行存储以便对其进行快速搜索的二叉树结构。
  brute：暴力实现
  auto：自动选择，权衡上述三种算法。【一般按自动即可】
- leaf_size :空值KD树或者球树的参数，停止建子树的叶子节点的阈值。
- p : 距离的计算方式。P=1为曼哈顿距离，p=2为欧式距离。
- metric : 用于树的距离度量
  1.曼哈顿距离2.欧式距离3.切比雪夫距离4.闵可夫斯基距离5.带权重闵可夫斯基距离
  6 .标准化欧式距离7.马氏距离
- metric_params :用于比较复杂的距离的度量附加参数。

python 复制代码

neigh = KNeighborsClassifier(n_neighbors=10,p=2)
# k = 10,使用欧式距离公式计算。

训练模型

python 复制代码

neigh.fit(x,y)
# 使用KNN模型中的fit方法进行训练。

测试模型

python 复制代码

print(neigh.predict([[15004,0.08800,0.671355]]))
# neigh.predict()：这是 neigh 模型的一个方法，用于对输入数据进行预测。
predict_data = [[9744,11.440364,0.760461],
                [16191,0.100000,0.605619],
                [42377,6.519522,1.058602],
                [27353,11.475155,1.528626]]
print(neigh.predict(predict_data))
# 测试多组数据时

测试结果
可以看到第一组数据分到2类别，第二组几个数据分别分到第2、2、1、3类别中。

完整代码------分类问题

python 复制代码

import numpy as np
from sklearn.neighbors import KNeighborsClassifier
data = np.loadtxt('datingTestSet2.txt')
x = data[:,:-1]
y = data[:,-1]
neigh = KNeighborsClassifier(n_neighbors=10,p=2)
neigh.fit(x,y) # 训练模型

print(neigh.predict([[15004,0.08800,0.671355]]))

predict_data = [[9744,11.440364,0.760461],
                [16191,0.100000,0.605619],
                [42377,6.519522,1.058602],
                [27353,11.475155,1.528626]]
print(neigh.predict(predict_data))

回归问题

使用数据
- 波士顿房价数据
导入模块

python 复制代码

import numpy as np
from sklearn.neighbors import KNeighborsRegressor
# 回归问题使用KNeighborsRegressor方法

导入数据

python 复制代码

data = np.loadtxt('boston.txt')
# 使用numpy中的loadtxt方法读取txt文件，读取后内容为数组

提取数据

python 复制代码

x = data[:,:-1]
# 逗号前后分别代表行和列，可以看出data[:,:-1]取从头到尾的行和从头到倒数第二个的列，且最后一个不取。
y = data[:,-1]
# 取从头到尾的行和最后一列。

KNN模型------KNeighborsRegressor
API class sklearn.neighbors.KNeighborsRegressor(n_neighbors=5, *, weights='uniform', algorithm='auto', leaf_size=30, p=2, metric='minkowski', metric_params=None, n_jobs=None)
- n_neighbors : k值，邻居的个数，默认为5。【关键参数】
- weights : 权重项，默认uniform方法。
  Uniform：所有最近邻样本的权重都一样。【一般使用这一个】
  Distance：权重和距离呈反比，距离越近的样本具有更高的权重。【确认样本分布情况，混乱使用这种形式】
  Callable：用户自定义权重。
- algorithm ：用于计算最近邻的算法。
  ball_tree：球树实现
  kd_tree：KD树实现, 是一种对n维空间中的实例点进行存储以便对其进行快速搜索的二叉树结构。
  brute：暴力实现
  auto：自动选择，权衡上述三种算法。【一般按自动即可】
- leaf_size :空值KD树或者球树的参数，停止建子树的叶子节点的阈值。
- p : 距离的计算方式。P=1为曼哈顿距离，p=2为欧式距离。
- metric : 用于树的距离度量
  1.曼哈顿距离2.欧式距离3.切比雪夫距离4.闵可夫斯基距离5.带权重闵可夫斯基距离
  6 .标准化欧式距离7.马氏距离
- metric_params :用于比较复杂的距离的度量附加参数。

python 复制代码

neigh = KNeighborsRegressor(n_neighbors=5,p=2)
# k = 5,使用欧式距离公式计算。
neigh2 = KNeighborsRegressor(n_neighbors=7,p=2)
# k = 7,使用欧式距离公式计算。

训练模型

python 复制代码

neigh.fit(x,y)
# 使用KNN模型中的fit方法进行训练。
neigh2.fit(x,y)

测试模型

python 复制代码

print(neigh.predict([[2.82838,0.00,18.120,0,0.5320,5.7620,40.32,4.0983,24,666.0,20.21,392.93,10.42]]))
print(neigh2.predict([[2.82838,0.00,18.120,0,0.5320,5.7620,40.32,4.0983,24,666.0,20.21,392.93,10.42]]))

测试结果
从结果可以看到根据不同的k值，会产生不同的回归值。

完整代码 ------回归问题

python 复制代码

import numpy as np
from sklearn.neighbors import KNeighborsClassifier, KNeighborsRegressor

data = np.loadtxt('boston.txt')
x = data[:,:-1]
y = data[:,-1]
neigh = KNeighborsRegressor(n_neighbors=5,p=2)
neigh.fit(x,y)
print(neigh.predict([[2.82838,0.00,18.120,0,0.5320,5.7620,40.32,4.0983,24,666.0,20.21,392.93,10.42]]))
neigh2 = KNeighborsRegressor(n_neighbors=7,p=2)
neigh2.fit(x,y)
print(neigh2.predict([[2.82838,0.00,18.120,0,0.5320,5.7620,40.32,4.0983,24,666.0,20.21,392.93,10.42]]))