milvus的磁盘索引

背景

本文介绍一种叫做DiskANN的磁盘索引算法,它基于Vamana graph,DiskANN在大数据集上搜索非常有效。

为了提高查询性能,我们可以为每个向量字段设置特定的索引类型。

注意:当前,一个向量字段仅仅支持一个索引类型,milvus会在切换新的索引类型的时候自动删除旧的索引类型。

前置条件

如果使用DiskANN,请注意:

  • DiskANN默认是开启的,如果我们倾向于选择内存索引而不是磁盘索引,建议我们禁用该功能来获得更好的性能
  • 禁用:我们可以修改milvus的配置文件的配置项: queryNode.enableDisk为false
  • 启用:设置 queryNode.enableDisk 为true
  • milvus实例运行在Ubuntu 18.04.6或者更高的版本上
  • 为了更好的性能,milvus数据路径应该挂载到 NVMe SSD
  • 如果milvus是独立部署,容器里面运行的milvus实例的数据路径应该配置为:/var/lib/milvus/data
  • 如果milvus是集群部署,容器里面运行的QueryNodes和IndexNodes的数据路径应该配置为:/var/lib/milvus/data

限制

为了使用DiskANN,需要确保:

  • 只能使用浮点数向量,并且我们的向量至少是一维的。
  • 只能使用欧几里得距离(L2)或者内积(IP)来计算向量之间的距离

索引和查询设置

  • 索引构建参数
    • 当构建DiskANN索引,使用 DISKANN作为索引类型,不需要其他任何的索引参数
  • 查询参数
Parameter Description Range
search_list 候选列表的大小,数字越大召回率越高相对性能就会降低 topk, int32_max

DiskANN相关的milvus配置

DiskANN是可以调整的,我们可以通过修改${MILVUS_ROOT_PATH}/configs/milvus.yaml里面的DiskANN相关的参数来提高它的性能:

复制代码
...
DiskIndex:
  MaxDegree: 56
  SearchListSize: 100
  PQCodeBugetGBRatio: 0.125
  SearchCacheBudgetGBRatio: 0.125
  BeamWidthRatio: 4.0
...
Parameter Description Value Range Default Value
MaxDegree Vamana graph的最大限度,更大的值能提高更多的召回率,但是也增加索引的大小和索引构建的时间 1, 512 56
SearchListSize 候选列表的大小,更大的值会增加索引构建的时间,但是提高了更高的召回率。设置它的值小于MaxDegree ,除非我们想要降低索引构建时间 1, int32_max 100
PQCodeBugetGBRatio PQ code的大小限制。更大的值提供了更高的召回率,但是增加了内存的使用 (0.0, 0.25] 0.125
SearchCacheBudgetGBRatio 缓存节点数与原始数据的比率,更大的值提高索引构建的性能,同时增加了内存的使用 [0.0, 0.3) 0.10
BeamWidthRatio 每次查询最大的IO请求和CPU个数之间的比例 1, max(128 / CPU number, 16) 4.0

问题解决

  • 怎么去解决 io_setup() failed; returned -11, errno=11:Resource temporarily unavailable 错误?
    • Linux内核提供了异步非阻塞IO(AIO)特性,它允许进程在不等待它们完成的情况下同时初始化多个I/O操作,这有助于提高计算和I/O叠加的应用程序的性能。
    • 可以在 proc系统文件 /proc/sys/fs/aio-max-nr 来调整此性能,aio-max-nr参数决定了并发请求的最大可允许数量,默认情况下,aio-max-nr值是65535,我们可以设置到10485760.
相关推荐
qq_3168377514 小时前
华为CCE 部署milvus向量数据库
milvus
救救孩子把15 小时前
10 Milvus-IVF原理与实战
milvus
金融支付架构实战指南2 天前
Milvus 向量检索服务 + SpringBoot 实战:电商商品语义检索与相似商品推荐
spring boot·后端·milvus·向量检索
程序员佳佳2 天前
四个月长期实测:自建 Milvus、FAISS、原生向量 API 和向量引擎中转方案,到底怎么选?
人工智能·windows·python·gpt·milvus·faiss
kishu_iOS&AI2 天前
LLM —— Milvmus向量数据库
数据库·人工智能·milvus
_张一凡2 天前
通往RAG之路(五):主流向量数据库全景解析与选型指南
pinecone·milvus·向量数据库·chroma·qdrant·rag系统搭建
王小王-1234 天前
从 Chroma 到 Milvus:一套 Agentic RAG 知识库的工程实践
milvus·chroma·rag·智能体·bm25·检索增强生成·agentic rag
啾啾Fun4 天前
【向量数据库】Milvus:为大规模、高性能而生的企业级向量数据库
数据库·milvus
救救孩子把5 天前
02 Milvus-Milvus整体架构
架构·milvus
救救孩子把5 天前
01 Milvus-向量数据库基础
数据库·milvus