1 介绍

精准最近邻搜索中数据维度一般较低，所以会采用穷举搜索，即在数据库中依次计算其中样本与所查询数据之间的距离，抽取出所计算出来的距离最小的样本即为所要查找的最近邻。
- 当数据量非常大的时候，搜索效率急剧下降。
- ------>近似最近邻查找（Approximate Nearest Neighbor Search，简称 ANN）是一种在大规模数据集中查找与给定查询点最相似（或"最近"）的数据点的优化算法。
与精确最近邻查找不同，近似最近邻查找不保证找到绝对最近的邻居，但它通常比精确方法更快，尤其是在高维数据空间中。
- 在牺牲可接受范围内的精度的情况下提高检索效率
近似最近邻检索利用数据量增大后数据之间会形成簇状聚集分布的特性，通过对数据分析聚类的方法对数据库中的数据进行分类或编码，对于目标数据根据其数据特征预测其所属的数据类别，返回类别中的部分或全部作为检索结果。

2 KD 树

一个局部敏感的哈希函数族 H 对于任意两个点 p 和 q，以及任意两个距离阈值 R 和 r（R>r），具有以下性质
- 正性质: 如果 distance(p,q)≤r，则 h(p)=h(q) 的概率较高。
  - 也就是说，如果两个点 p 和 q 距离很近，那么它们被哈希到同一个桶的概率应该很高。
- 负性质: 如果distance(p,q)≥R，则 h(p)=h(q) 的概率较低。
  - 也就是说，如果两个点 p 和 q 距离很远，那么它们被哈希到同一个桶的概率应该很低。