Milvus——向量索引 :IVF_FLAT

1. 什么是倒排索引?

传统的索引(正排索引)是:文档 -> 关键词列表。

例如:

  • 文档1: {"我", "喜欢", "机器学习"}

  • 文档2: {"我", "爱", "深度学习"}

倒排索引 是:关键词 -> 文档列表。

  • "我": {文档1, 文档2}

  • "喜欢": {文档1}

  • "机器学习": {文档1}

  • "爱": {文档2}

  • "深度学习": {文档2}

在搜索引擎中,这让你能快速找到包含某个关键词的所有文档。

2. IVF_FLAT 如何应用倒排索引?

在向量搜索的上下文中,IVF_FLAT 将这个概念从"关键词"迁移到了"聚类中心"。

它的工作流程分为两步:

第一步:索引构建(创建倒排索引)

  1. 聚类 : 首先,使用 K-Means 等算法对整个向量数据集进行聚类,得到 nlist 个聚类中心。例如,你有100万个向量,设置 nlist 为1000,就会得到1000个聚类中心。

  2. 分配向量到桶中 : 对于数据集中的每一个向量,计算它与所有聚类中心的距离,并将其分配到距离最近的那个聚类中心所代表的"桶"中。

  3. 形成倒排列表 : 现在,每个聚类中心(类似于"关键词")都对应了一个列表,这个列表里包含了所有属于这个聚类的向量ID(以及向量本身)。这就是倒排索引

    • 聚类中心1 -> {向量ID_1, 向量ID_100, ...}

    • 聚类中心2 -> {向量ID_5, 向量ID_3000, ...}

    • ...

    • 聚类中心1000 -> {向量ID_800000, ...}

第二步:搜索(使用倒排索引)

  1. 粗筛 : 当来了一个查询向量时,系统计算它与所有 nlist 个聚类中心的距离。

  2. 选择最相似的桶 : 选择距离最近的 nprobe 个聚类中心。nprobe 是一个重要参数,比如 nprobe=10,就意味着我们只查看与查询向量最相似的10个聚类中心对应的桶。

  3. 精细搜索 : 将这 nprobe 个桶中的所有向量(在FLAT中,就是原始向量)拿出来,与查询向量进行精确的距离计算(例如,计算欧氏距离或内积)。

  4. 返回结果: 最后,在这些被粗筛出来的候选向量中,找出距离最近的K个向量作为最终结果。

总结与类比

领域 "关键词" "文档列表" 目的
文本搜索 单词(如"机器学习") 包含该单词的文档ID列表 快速定位相关文档,避免全表扫描
向量搜索(IVF) 聚类中心 属于该聚类的向量ID列表 快速定位可能相似的向量,避免与全量向量计算距离

所以,IVF_FLAT 的本质就是:

  • IVF : 代表了使用倒排索引 的聚类思想,用于快速缩小搜索范围,这是一种"粗粒度"的检索。

  • FLAT : 代表了在缩小范围后,使用原始、未压缩的向量 进行精确计算,这是一种"细粒度"的比对。

正是这种结合,使得 IVF_FLAT 在大规模数据集上既能保证较高的召回率和精度,又能极大地提升搜索速度。如果没有倒排索引(IVF部分),每次搜索都需要进行"暴力扫描",计算查询向量与数据库中每一个向量的距离,这在数据量巨大时是无法接受的。

相关推荐
程序员老邢19 小时前
【技术底稿 17】DevOps 监控告警实战踩坑复盘 —— 企微机器人告警 + Milvus 向量库监控全流程验证
运维·机器人·企业微信·devops·milvus
james的分享1 天前
向量数据库之Milvus
数据库·milvus
程序员老邢3 天前
【产品底稿 05】商助慧 V1.1 里程碑:RAG 文章仿写模块全链路实现
java·spring boot·程序人生·ai·milvus
Flying pigs~~3 天前
从零到一构建企业级 RAG 问答系统:一个完整的模块化实践指南
数据库·人工智能·缓存·大模型·milvus·知识库·rag
Flying pigs~~3 天前
RAG 项目完整学习笔记与总结
agent·milvus·rag·智能体·检索增强生成
Flying pigs~~3 天前
企业级模块化RAG项目(mysql➕redis➕milvus➕模型微调➕bm25➕fastapi➕ollama➕Prompt➕多策略选择)
人工智能·redis·mysql·docker·prompt·milvus·rag
小程故事多_804 天前
Agent+Milvus,告别静态知识库,打造具备动态记忆的智能AI助手
人工智能·深度学习·ai编程·milvus
许彰午5 天前
零成本搭建RAG智能客服:Ollama + Milvus + DeepSeek全程实战
人工智能·语音识别·llama·milvus
Flying pigs~~6 天前
检索增强生成RAG项目tools_03:mysql➕redis➕milvus
人工智能·agent·milvus·rag·智能体·检索增强生成