milvus的磁盘索引

背景

本文介绍一种叫做DiskANN的磁盘索引算法，它基于Vamana graph，DiskANN在大数据集上搜索非常有效。

为了提高查询性能，我们可以为每个向量字段设置特定的索引类型。

注意：当前，一个向量字段仅仅支持一个索引类型，milvus会在切换新的索引类型的时候自动删除旧的索引类型。

如果使用DiskANN,请注意：

为了使用DiskANN,需要确保：

Parameter	Description	Range
`search_list`	候选列表的大小，数字越大召回率越高相对性能就会降低	[topk, int32_max]

DiskANN相关的milvus配置

DiskANN是可以调整的，我们可以通过修改${MILVUS_ROOT_PATH}/configs/milvus.yaml里面的DiskANN相关的参数来提高它的性能：

复制代码

...
DiskIndex:
  MaxDegree: 56
  SearchListSize: 100
  PQCodeBugetGBRatio: 0.125
  SearchCacheBudgetGBRatio: 0.125
  BeamWidthRatio: 4.0
...

Parameter	Description	Value Range	Default Value
`MaxDegree`	Vamana graph的最大限度，更大的值能提高更多的召回率，但是也增加索引的大小和索引构建的时间	[1, 512]	56
`SearchListSize`	候选列表的大小，更大的值会增加索引构建的时间，但是提高了更高的召回率。设置它的值小于`MaxDegree` ，除非我们想要降低索引构建时间	[1, int32_max]	100
`PQCodeBugetGBRatio`	PQ code的大小限制。更大的值提供了更高的召回率，但是增加了内存的使用	(0.0, 0.25]	0.125
`SearchCacheBudgetGBRatio`	缓存节点数与原始数据的比率，更大的值提高索引构建的性能，同时增加了内存的使用	[0.0, 0.3)	0.10
`BeamWidthRatio`	每次查询最大的IO请求和CPU个数之间的比例	[1, max(128 / CPU number, 16)]	4.0

问题解决

怎么去解决 io_setup() failed; returned -11, errno=11:Resource temporarily unavailable 错误？
- Linux内核提供了异步非阻塞IO(AIO)特性，它允许进程在不等待它们完成的情况下同时初始化多个I/O操作，这有助于提高计算和I/O叠加的应用程序的性能。
- 可以在 proc系统文件 /proc/sys/fs/aio-max-nr 来调整此性能，aio-max-nr参数决定了并发请求的最大可允许数量，默认情况下，aio-max-nr值是65535，我们可以设置到10485760.