HNSW、LSH和PQ是向量数据库中的3种核心索引与压缩技 术,用于加速高维向量的相似性搜索。
HNSW
H ierarchical N avigable S mall World(HNSW),在高维空间中,构建多层图结构,每一层都是一个小世界网络。
上层的节点比较稀疏,能快速跳跃式定位大致的范围;
下层的节点比较密集,用于精细搜索。
HNSW技术查询速度和精度的平衡比较优秀。
LSH
L ocality-S ensitive Hashing(LSH),是由经过特殊设计的哈希函数,能够使相似向量以较高的概率映射到同一个哈希桶,不相似的向量尽量分散到不同的哈希桶。
在查询的时候,只需要搜索查询向量所在的哈希桶以及相邻的哈希桶,极大地缩小了检索范围。
LSH技术在推荐系统、图像检索等海量数据的近似查询场景中应用广泛。
PQ
P roduct Quantization(PQ)将高维的向量拆分成多个低维的子向量,对每个子向量集合进行聚类,生成聚类中心。
在存储的时候,用聚类中心的编号表示向量,从而大幅减少存储空间。
PQ技术常用于工业级的向量检索系统。