milvus的磁盘索引

背景

本文介绍一种叫做DiskANN的磁盘索引算法,它基于Vamana graph,DiskANN在大数据集上搜索非常有效。

为了提高查询性能,我们可以为每个向量字段设置特定的索引类型。

注意:当前,一个向量字段仅仅支持一个索引类型,milvus会在切换新的索引类型的时候自动删除旧的索引类型。

前置条件

如果使用DiskANN,请注意:

  • DiskANN默认是开启的,如果我们倾向于选择内存索引而不是磁盘索引,建议我们禁用该功能来获得更好的性能
  • 禁用:我们可以修改milvus的配置文件的配置项: queryNode.enableDisk为false
  • 启用:设置 queryNode.enableDisk 为true
  • milvus实例运行在Ubuntu 18.04.6或者更高的版本上
  • 为了更好的性能,milvus数据路径应该挂载到 NVMe SSD
  • 如果milvus是独立部署,容器里面运行的milvus实例的数据路径应该配置为:/var/lib/milvus/data
  • 如果milvus是集群部署,容器里面运行的QueryNodes和IndexNodes的数据路径应该配置为:/var/lib/milvus/data

限制

为了使用DiskANN,需要确保:

  • 只能使用浮点数向量,并且我们的向量至少是一维的。
  • 只能使用欧几里得距离(L2)或者内积(IP)来计算向量之间的距离

索引和查询设置

  • 索引构建参数
    • 当构建DiskANN索引,使用 DISKANN作为索引类型,不需要其他任何的索引参数
  • 查询参数
Parameter Description Range
search_list 候选列表的大小,数字越大召回率越高相对性能就会降低 [topk, int32_max]

DiskANN相关的milvus配置

DiskANN是可以调整的,我们可以通过修改${MILVUS_ROOT_PATH}/configs/milvus.yaml里面的DiskANN相关的参数来提高它的性能:

复制代码
...
DiskIndex:
  MaxDegree: 56
  SearchListSize: 100
  PQCodeBugetGBRatio: 0.125
  SearchCacheBudgetGBRatio: 0.125
  BeamWidthRatio: 4.0
...
Parameter Description Value Range Default Value
MaxDegree Vamana graph的最大限度,更大的值能提高更多的召回率,但是也增加索引的大小和索引构建的时间 [1, 512] 56
SearchListSize 候选列表的大小,更大的值会增加索引构建的时间,但是提高了更高的召回率。设置它的值小于MaxDegree ,除非我们想要降低索引构建时间 [1, int32_max] 100
PQCodeBugetGBRatio PQ code的大小限制。更大的值提供了更高的召回率,但是增加了内存的使用 (0.0, 0.25] 0.125
SearchCacheBudgetGBRatio 缓存节点数与原始数据的比率,更大的值提高索引构建的性能,同时增加了内存的使用 [0.0, 0.3) 0.10
BeamWidthRatio 每次查询最大的IO请求和CPU个数之间的比例 [1, max(128 / CPU number, 16)] 4.0

问题解决

  • 怎么去解决 io_setup() failed; returned -11, errno=11:Resource temporarily unavailable 错误?
    • Linux内核提供了异步非阻塞IO(AIO)特性,它允许进程在不等待它们完成的情况下同时初始化多个I/O操作,这有助于提高计算和I/O叠加的应用程序的性能。
    • 可以在 proc系统文件 /proc/sys/fs/aio-max-nr 来调整此性能,aio-max-nr参数决定了并发请求的最大可允许数量,默认情况下,aio-max-nr值是65535,我们可以设置到10485760.
相关推荐
程序员老邢11 小时前
【产品底稿 04】商助慧 V1.1 里程碑:爬虫入库 + MySQL + Milvus 全链路打通
java·爬虫·mysql·ai·springboot·milvus
rchmin1 天前
向量数据库Milvus安装及使用实战经验分享
数据库·milvus
紫青宝剑2 天前
向量数据库 Milvus
数据库·milvus
chushiyunen4 天前
pymilvus操作milvus向量数据库笔记(二)
milvus
chushiyunen4 天前
milvus笔记、常用表结构
笔记·算法·milvus
chushiyunen4 天前
pymilvus操作milvus向量数据库笔记(一)
笔记·milvus
chushiyunen5 天前
milvus数据库管理工具attu使用笔记
笔记·milvus
捧月华如6 天前
RAG 入门-向量存储与企业级向量数据库 milvus
数据库·milvus
tHeya06II7 天前
使用Milvus搭配Ollama搭建RAG知识库
milvus
翊谦8 天前
Java Agent开发 Milvus 向量数据库安装
java·数据库·milvus