机器学习-KNN - 技术栈

KNN：K最邻近算法（K-Nearest Neighbor,KNN）

用特征空间中距离待分类对象的最近的K个样例点的类别来预测。

投票法：K 个样例的对数类别。

基于实例学习：不需要训练。

K 最邻近算法步骤：

如图：K =3，分类结果是三角形

k=5，分类结果是正方形

如果我们进行了加权，即便是K=5，由于实例点离三角形特别近，分类结果也有可能为三角形

如何确定K

K-D Tree(K-Dimensional Tree)

KD Tree 是一种数据结构。对 k 维空间里的点进行组织，存储为树形的数据结构。

KD Tree 为K维空间进行分割，主要应用于多维空间关键数据的搜索（如：范围搜索和最近邻搜索）。

图1

如图1：空间先按红线分割，然后前后两个空间分别按绿色线分割，然后在四个空间中再按蓝色线分割

建树：

查找方法：（查找目标为x）

在KD 树中自上而下按照建树的规则，找 x 对应的叶子节点，当做最近点，计算当前最近距离。
从该叶节点开始，从底向上，重复直到根节点：计算当前节点的父节点的切分面到 x 的距离；如果该距离小于当前前最优距离，则在改父节点的另一子区域查找最近点，否则忽略该子区域，直接到上一层查找。

KD 树练习：

数据（2,3）（5,4）（9,6）（4,7）（8,1）（7,2）

查找最近邻近点：（4,5）（4,6）

图2 图3

注意：