milvus的磁盘索引

背景

本文介绍一种叫做DiskANN的磁盘索引算法,它基于Vamana graph,DiskANN在大数据集上搜索非常有效。

为了提高查询性能,我们可以为每个向量字段设置特定的索引类型。

注意:当前,一个向量字段仅仅支持一个索引类型,milvus会在切换新的索引类型的时候自动删除旧的索引类型。

前置条件

如果使用DiskANN,请注意:

  • DiskANN默认是开启的,如果我们倾向于选择内存索引而不是磁盘索引,建议我们禁用该功能来获得更好的性能
  • 禁用:我们可以修改milvus的配置文件的配置项: queryNode.enableDisk为false
  • 启用:设置 queryNode.enableDisk 为true
  • milvus实例运行在Ubuntu 18.04.6或者更高的版本上
  • 为了更好的性能,milvus数据路径应该挂载到 NVMe SSD
  • 如果milvus是独立部署,容器里面运行的milvus实例的数据路径应该配置为:/var/lib/milvus/data
  • 如果milvus是集群部署,容器里面运行的QueryNodes和IndexNodes的数据路径应该配置为:/var/lib/milvus/data

限制

为了使用DiskANN,需要确保:

  • 只能使用浮点数向量,并且我们的向量至少是一维的。
  • 只能使用欧几里得距离(L2)或者内积(IP)来计算向量之间的距离

索引和查询设置

  • 索引构建参数
    • 当构建DiskANN索引,使用 DISKANN作为索引类型,不需要其他任何的索引参数
  • 查询参数
Parameter Description Range
search_list 候选列表的大小,数字越大召回率越高相对性能就会降低 [topk, int32_max]

DiskANN相关的milvus配置

DiskANN是可以调整的,我们可以通过修改${MILVUS_ROOT_PATH}/configs/milvus.yaml里面的DiskANN相关的参数来提高它的性能:

...
DiskIndex:
  MaxDegree: 56
  SearchListSize: 100
  PQCodeBugetGBRatio: 0.125
  SearchCacheBudgetGBRatio: 0.125
  BeamWidthRatio: 4.0
...
Parameter Description Value Range Default Value
MaxDegree Vamana graph的最大限度,更大的值能提高更多的召回率,但是也增加索引的大小和索引构建的时间 [1, 512] 56
SearchListSize 候选列表的大小,更大的值会增加索引构建的时间,但是提高了更高的召回率。设置它的值小于MaxDegree ,除非我们想要降低索引构建时间 [1, int32_max] 100
PQCodeBugetGBRatio PQ code的大小限制。更大的值提供了更高的召回率,但是增加了内存的使用 (0.0, 0.25] 0.125
SearchCacheBudgetGBRatio 缓存节点数与原始数据的比率,更大的值提高索引构建的性能,同时增加了内存的使用 [0.0, 0.3) 0.10
BeamWidthRatio 每次查询最大的IO请求和CPU个数之间的比例 [1, max(128 / CPU number, 16)] 4.0

问题解决

  • 怎么去解决 io_setup() failed; returned -11, errno=11:Resource temporarily unavailable 错误?
    • Linux内核提供了异步非阻塞IO(AIO)特性,它允许进程在不等待它们完成的情况下同时初始化多个I/O操作,这有助于提高计算和I/O叠加的应用程序的性能。
    • 可以在 proc系统文件 /proc/sys/fs/aio-max-nr 来调整此性能,aio-max-nr参数决定了并发请求的最大可允许数量,默认情况下,aio-max-nr值是65535,我们可以设置到10485760.
相关推荐
Zilliz Planet3 天前
快速实现AI搜索!Fivetran 支持 Milvus 作为数据迁移目标
人工智能·milvus
花千树-0107 天前
Milvus - 架构设计详解
milvus
花千树-0107 天前
Milvus - 安装与部署教程
milvus
苍墨穹天10 天前
基于milvus数据库的RAG-Demo
langchain·milvus
花千树-01011 天前
Milvus - 从数据库到 Partition Key 实现多租户
数据库·milvus
chenkangck5015 天前
AI大模型之旅--milvus向量库安装
人工智能·aigc·milvus
MonkeyKing_sunyuhua20 天前
实现从 Milvus 中获取数据,并基于嵌入向量重新排序的功能
numpy·milvus
我爱学Python!20 天前
大模型教程:使用 Milvus、vLLM 和 Llama 3.1 搭建 RAG 应用
自然语言处理·大模型·llm·大语言模型·llama·milvus·rag
苍墨穹天20 天前
windows系统docker装milvus向量数据库
docker·容器·milvus
Zilliz Planet23 天前
使用 Milvus、vLLM 和 Llama 3.1 搭建 RAG 应用
llama·milvus