索引构建优化
构建时间 vs QPS vs 召回率
- 基于图(如HNSW)通常能够提供最高的QPS和低延迟,尤其适合top-K较小(<= 2000)或对高召回率有需求的场景
- IVF系列(IVF-PQ/SQ8)在top-K较大(>=2000)时更高效,能够通过聚类分桶减少检索范围
- 在相同压缩率下,PQ比SQ8召回率更高,但SQ8的查询速度略胜一筹
- 使用DiskANN(磁盘+PQ量化+Vamana图)可处理远超内存容量的海量数据,但会受制于磁盘IOPS
容量于内存映射
- 如果所有向量的数据都能装进内存,可以优先选择内存索引(HNSW、IVF+精炼)并配合mmap优化大文件访问
- 如果只能部分数据进内存,DiskANN是更稳定的低延迟方案;IVFPQ/SQ8 + mmap则在成本和精度间提供折中。
过滤率 与 召回策略
- 过滤率<=85%:图索引效果更佳
- 85% <=过滤率<=95%:IVF系列更合适
- 过滤率>=98%:暴力搜索(FLAT)可保证较高召回率
Top-K大小影响
- 小Top-K、高召回:基于图
- 大Top-K、占数据集>=1%:IVF系列
- 极高召回率(>99%):FLAT+GPU重算