机器学习基础之《分类算法（2）—K-近邻算法》

csj502023-08-17 10:17

一、K-近邻算法(KNN)

1、定义

KNN

K：就是一个自然数

N：nearest，最近的

N：neighbourhood，邻居

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别

k = 1 容易受到异常点的影响

2、假设有一张北京地图，我不知道我在哪儿，目的是要知道我在北京的哪个区

这是一个分类问题

我不知道我在哪儿，但我知道我跟这几个人之间的距离，并且知道这5个人在哪个区

KNN核心思想：你的"邻居"来推断出你的类别

3、计算距离公式

两个样本的距离可以通过如下公式计算，又叫欧式距离

注意：二维空间则是d = sqrt((x2 - x1)^2 + (y2 - y1)^2)

其他距离公式：

曼哈顿距离---绝对值距离

闵可夫斯基距离

4、例子