Milvus - 标量字段索引技术解析

概述

在大规模向量相似性搜索场景中,结合标量字段和向量字段的过滤搜索需求日益增加。Milvus 2.1.0 版本引入的标量字段索引,为此类查询提供了极大的性能提升。本文将探讨 Milvus 的标量字段索引技术,包括其原理、实现方法、使用场景及性能优势。

为什么选择标量字段索引?

当在 Milvus 中进行向量相似性搜索时,可能希望通过一些标量字段(例如,数值、字符串字段)来进行筛选,以实现更精准的搜索结果。例如,在图像检索中,可以根据图片上传日期等标量字段来筛选结果。然而,标量字段过滤的效率直接影响最终查询的速度。为了解决这一瓶颈,Milvus 引入了标量字段索引,它可以有效组织标量字段的数据,并结合倒排索引、自动索引等技术,极大提升查询效率。

标量字段索引的工作原理

在接收到带有布尔表达式的搜索请求时,Milvus 会将表达式解析为抽象语法树(AST),并生成对应的物理计划。然后,Milvus 在每个数据段中执行物理计划,生成比特集作为过滤结果,再将此结果用于向量搜索参数,以缩小搜索范围。

1. 标量字段索引的分段过滤

标量字段索引的作用在于加速分段内的属性过滤过程。它以特定方式对标量字段值进行排序,使得信息检索速度大大提升。Milvus 提供了两种主要的标量字段索引算法:自动索引和反转索引。

2. 自动索引与反转索引

  • 自动索引:适用于频繁检索、前缀匹配等查询。Milvus 可以基于标量字段的数据类型自动创建索引,无需手动干预。
  • 反转索引:提供了手动配置的灵活性,适合更复杂的场景,如点查询、模式匹配、全文检索、布尔搜索和 JSON 查询。
自动索引的数据类型支持
数据类型 自动索引算法
VARCHAR 反转索引
INT8 反转索引
INT16 反转索引
INT32 反转索引
INT64 反转索引
FLOAT 反转索引
二进制 反转索引
反转索引的优势

Milvus 中的反转索引由 Tantivy(一个高效的全文搜索引擎库)支持。Tantivy 确保了 Milvus 的反转索引在性能和速度上的优越性。反转索引由术语字典和倒排列表两部分组成,其中术语字典是按字母顺序排列的所有标记词列表,而倒排列表记录每个词所关联的文档。这样设计让反转索引在点查询和范围查询中比暴力搜索快得多。

  • 点查询:通过在术语字典中查找关键字并获取相关倒排列表,避免了大量无效遍历。
  • 范围查询:利用已排序的术语字典更快速地定位符合条件的内容,进一步加速检索过程。

Milvus 中标量字段索引的使用

在 Milvus 中使用标量字段索引可以显著提高带有标量字段筛选的查询性能,以下是一些常见的使用方法和参数配置。

1. 配置自动索引

Milvus 自动为支持的数据类型(如 VARCHARINT 等)创建索引,无需手动干预。在执行搜索时,仅需构造包含布尔表达式的查询条件,Milvus 会自动处理索引。

python 复制代码
# 假设我们有一个字符串和整型标量字段
search_params = {
    "bool_expr": "age > 30 AND status == 'active'"
}
results = collection.search(data=query_vectors, anns_field="embedding", param=search_params, limit=top_K)

2. 手动配置反转索引

反转索引支持更灵活的查询需求,适合点查询、前缀匹配、范围查询等操作。通过反转索引可在 Milvus 中手动配置标量字段的索引。

python 复制代码
# 使用倒排索引来支持复杂的查询场景
index_params = {
    "field_name": "attribute_field",
    "index_type": "INVERTED_INDEX"
}
collection.create_index(index_params=index_params)

3. 查询示例

一旦标量字段索引构建完毕,可以通过以下方式进行点查询和范围查询。

python 复制代码
# 点查询:根据某个值精确匹配
point_query = "category == 'Electronics'"
results = collection.search(data=query_vectors, anns_field="embedding", bool_expr=point_query, limit=top_K)

# 范围查询:查找某个范围内的数据
range_query = "price > 500 AND price < 1000"
results = collection.search(data=query_vectors, anns_field="embedding", bool_expr=range_query, limit=top_K)

标量索引性能测试结果

为了验证标量字段索引的性能优势,实验对比了倒排索引和暴力搜索的性能表现。实验在包含 100 万条记录的数据集上进行测试,结果表明:

  • 点查询:使用倒排索引的查询性能比暴力搜索快 30 倍。
  • 范围查询:使用倒排索引在大数据集上的性能提升更加显著。

这些结果表明,倒排索引在大规模数据场景中提供了更高效的查询性能。

性能建议

使用 Milvus 标量字段索引时,可以根据数据类型和数据量,估算所需的内存大小,以更好地进行资源规划。以下为不同数据类型的内存估算公式:

数值字段

数据类型 内存估算函数(MB)
INT8 行数 * 12 / 1024 / 1024
INT16 行数 * 12 / 1024 / 1024
INT32 行数 * 12 / 1024 / 1024
INT64 行数 * 24 / 1024 / 1024
FLOAT32 行数 * 12 / 1024 / 1024
二进制 行数 * 24 / 1024 / 1024

字符串字段

字符串长度 内存估算函数(MB)
(0, 8] 行数 * 128 / 1024 / 1024
(8, 16] 行数 * 144 / 1024 / 1024
(16, 32] 行数 * 160 / 1024 / 1024
(32, 64] 行数 * 192 / 1024 / 1024
(64, 128] 行数 * 256 / 1024 / 1024
(128, 65535] 行数 * strLen * 1.5 / 1024 / 1024

结论

标量字段索引为 Milvus 向量相似性搜索增添了强大的筛选能力,使得在处理具有大量标量属性的数据集时,查询性能显著提升。通过选择适当的索引类型和合理的配置,您可以在搜索精度和查询效率之间找到理想的平衡点,满足复杂数据处理场景的业务需求。

相关推荐
用户87612829073741 分钟前
前端ai对话框架semi-design-vue
前端·人工智能
量子位2 分钟前
稚晖君刚挖来的 90 后机器人大牛:逆袭履历堪比爽文男主
人工智能·llm
网安刚哥2 分钟前
MCP Server 牛刀小试之雷池WAF MCP
程序员·github·ai编程
量子位7 分钟前
200 亿机器人独角兽被曝爆雷,官方回应来了
人工智能·llm
机器之心11 分钟前
细节厘米级还原、实时渲染,MTGS方法突破自动驾驶场景重建瓶颈
人工智能
arbboter26 分钟前
【AI插件开发】Notepad++ AI插件开发实践:从Dock窗口集成到功能菜单实现
人工智能·notepad++·动态菜单·notepad++插件开发·dock窗口集成·ai代码辅助工具·ai对话窗口
jndingxin35 分钟前
OpenCV 图形API(或称G-API)(1)
人工智能·opencv·计算机视觉
Java中文社群43 分钟前
超实用!Prompt程序员使用指南,大模型各角色代码实战案例分享
后端·aigc
神马行空2 小时前
一文解读DeepSeek大模型在政府工作中具体的场景应用
人工智能·大模型·数字化转型·deepseek·政务应用
合合技术团队2 小时前
实测对比|法国 AI 独角兽公司发布的“最强 OCR”,实测效果如何?
大数据·人工智能·图像识别