向量化召回算法ANN、IVF、HNSW、IVF-PQ

ANN(Approximate Nearest Neighbor) 意为近似近邻搜索,即通过模型预计算,建立索引或图以便在线检索时通过剪枝或图检索从而加速检索过程,通常为非穷尽检索。目前常用的ANN 检索方式有 IVF, HNSW, BTree, IVF-PQ。

IVF

IVF(lnverted File)通过在模型预计算时将所有候选进行KMeans聚类,即检索距离最近的m个聚类蔟,遍历这m个聚类蔟下所有候选,计算得出距离最近的topk候选。扩大IVF检索覆盖范围或增加聚类数都可以提高检索精度,这也正是IVF-PQ以及BTree分别采用的思路。

HNSW

HNSW(Hierarchical Navigable Small World) 类似于跳表的思想,在构建阶段,在搜索时,从最高层的入点出发,逐层贪心搜索距离query vec最近的点,当一层达到收敛后,进入下一层,直至到达底层,在底层L0中,包含候选集中所有的点,即全量数据图网络。在L0层中开始深度优先搜索距离query vec最近的候选点集,每次将距离query vec最近的点加入候选点集中,若候选点集已满,则弹出最远候选点,直至候选点集收敛。

微软、FB、阿里的相关论文(DistANN,NSG,SSG)对HNSW的性能做了大量的研究与改进,经验上来说,召回的topk比较小的情况下(例如召回只有几百的情况下),HNSW的召回率较高,因此HNSW更适合推荐场景;但如果召回的topk比较大的情况下(例如召回达到2000左右的规模),IVF更适合一些,因此IVF和后面的PQ-IVF也更适合广告场景

图片来自 https://www.pinecone.io/learn/series/faiss/hnsw/

BTree

BTree和IVF相比主要是通过使用GPU来大幅度增加聚类中心点来优化。IVF跑在CPU上如果聚类中心点过多,速度会比较慢。

IVF-PQ

IVF-PG中的PQ意思是Product Quantization,常用的量化方式有Fix16、Int8和PQ

Fix16

通过全局的scale,把float32量化到fix16,从而节省一半的存储

int8

int8就不能像Fix16直接使用全局的scale,精度丢失的太厉害,因此常有的有两种思路:

QAT (Quantization-aware Training / 量化感知训练)

简单来说就是把量化带来的误差引入到模型训练中,使得模型能够学习到全局唯一的scale(对称量化

PTQ(Post Training Quantization /训练后量化)

逐条向量中的每一条根据最大元素放缩,每一条向量都有自己的scale和offset(非对称量化

Product Quantization

In short, PQ is the process of:

  • Taking a big, high-dimensional vector,
    Splitting it into equally sized chunks --- our subvectors,
  • Assigning each of these subvectors to its nearest centroid (also called reproduction/reconstruction values),
  • Replacing these centroid values with unique IDs --- each ID represents a centroid

在PQ中,每个subvector的量化器还是由kmeans得到

图片来自https://www.pinecone.io/learn/series/faiss/product-quantization/

IVF-PQ

IVF_PQ先将所有的候选向量通过kmeans划分到多个聚类簇中,然后将每个候选向量与其中心点做差得到残差向量,得到残差向量矩阵,再对此残差向量矩阵进行PQ量化。如果不用残差的话,原始向量可能会有特别大的分布差异/不平衡

相关推荐
薛慕昭4 分钟前
C语言核心技术深度解析:从内存管理到算法实现
c语言·开发语言·算法
.ZGR.7 分钟前
第十六届蓝桥杯省赛 C 组——Java题解1(链表知识点)
java·算法·链表·蓝桥杯
近津薪荼8 分钟前
每日一练 1(双指针)(单调性)
c++·算法
林太白11 分钟前
八大数据结构
前端·后端·算法
爱思德学术15 分钟前
第二届中欧科学家论坛暨第七届人工智能与先进制造国际会议(AIAM 2025)在德国海德堡成功举办
人工智能·算法·机器学习·语言模型
机器学习之心42 分钟前
MATLAB多子种群混沌自适应哈里斯鹰算法优化BP神经网络回归预测
神经网络·算法·matlab
MicroTech20252 小时前
微算法科技(NASDAQ MLGO)“自适应委托权益证明DPoS”模型:重塑区块链治理新格局
科技·算法·区块链
FanXing_zl2 小时前
在整数MCU上实现快速除法计算:原理、方法与优化
单片机·嵌入式硬件·mcu·算法·定点运算
Paxon Zhang2 小时前
数据结构之**二叉树**超全秘籍宝典2
java·数据结构·算法
迷途之人不知返3 小时前
链表相关的算法题(2)
数据结构·算法·链表