【Elasticsearch】HNSW

HNSW(Hierarchical Navigable Small World)是一种高效的近似最近邻(Approximate Nearest Neighbor, ANN)搜索算法。它在大规模数据集上表现尤为出色,能够在保持高搜索精度的同时,显著提高搜索速度。HNSW通过构建多层图结构来加速搜索过程,使得在大规模数据集上进行k-最近邻搜索成为可能。

HNSW的基本原理

  1. **层次结构**:
  • HNSW构建一个多层图结构,每一层都包含一个子集的节点。

  • 最高层(Layer 0)包含所有节点,而较低的层逐渐减少节点数量。

  • 每个节点在不同层之间有连接,形成一个层次化的网络。

  1. **搜索过程**:
  • 搜索从最高层开始,逐步向下层移动。

  • 在每层中,搜索算法会找到当前节点的最近邻节点,并继续向下一层搜索。

  • 通过这种方式,搜索过程可以快速缩小搜索范围,最终在最低层找到最接近的邻居。

HNSW的主要参数

  1. **`m` 参数**:
  • **含义**:每个节点在HNSW图中的最大连接数。

  • **默认值**:16

  • **调优建议**:

  • 较小的`m`值可以减少索引的大小,但可能会降低搜索精度。

  • 较大的`m`值可以提高搜索精度,但会增加索引的大小和构建时间。

  1. **`ef_construction` 参数**:
  • **含义**:在构建索引时,每个节点的候选邻居数量。

  • **默认值**:100

  • **调优建议**:

  • 较大的`ef_construction`值可以提高索引的质量,但会增加索引构建时间。

  • 较小的`ef_construction`值可以加快索引构建速度,但可能会降低索引质量。

  1. **`ef_search` 参数**:
  • **含义**:在搜索时,每个节点的候选邻居数量。

  • **默认值**:100

  • **调优建议**:

  • 较大的`ef_search`值可以提高搜索精度,但会增加搜索时间。

  • 较小的`ef_search`值可以加快搜索速度,但可能会降低搜索精度。

在Elasticsearch中使用HNSW

在Elasticsearch中,你可以通过设置 `index_options` 来使用HNSW索引方法。以下是一个示例,展示了如何创建一个使用HNSW索引的索引,并进行kNN搜索。

1. 创建索引

```json

PUT my-hnsw-index

{

"mappings": {

"properties": {

"my_vector": {

"type": "dense_vector",

"dims": 3,

"index": true,

"index_options": {

"type": "hnsw",

"m": 32,

"ef_construction": 200

}

}

}

}

}

```

2. 索引文档

```python

from elasticsearch import Elasticsearch

es = Elasticsearch()

生成随机向量

vector = [0.1, 0.2, 0.3]

索引文档

doc = {

"my_vector": vector

}

es.index(index="my-hnsw-index", id=1, body=doc)

```

3. 使用kNN搜索

```json

GET my-hnsw-index/_search

{

"size": 10,

"query": {

"knn": {

"my_vector": {

"vector": [0.1, 0.2, 0.3], # 查询向量

"k": 10,

"ef_search": 200 # 调整ef_search值

}

}

}

}

```

调优建议

  1. **`m` 参数**:
  • 如果数据集较大,可以适当增加`m`值以提高搜索精度。

  • 如果存储空间有限,可以适当减小`m`值以减少索引大小。

  1. **`ef_construction` 参数**:
  • 如果构建时间不是主要关注点,可以增加`ef_construction`值以提高索引质量。

  • 如果需要快速构建索引,可以适当减小`ef_construction`值。

  1. **`ef_search` 参数**:
  • 如果搜索精度是关键,可以增加`ef_search`值以提高搜索精度。

  • 如果需要快速搜索,可以适当减小`ef_search`值。

总结

HNSW是一种高效的近似最近邻搜索算法,通过构建多层图结构来加速搜索过程。在Elasticsearch中,你可以通过设置 `index_options` 来使用HNSW索引方法,并通过调整 `m`、`ef_construction` 和 `ef_search` 参数来优化索引和搜索性能。通过这些调优建议,你可以在大规模数据集上实现高效且准确的k-最近邻搜索。

相关推荐
米饭不加菜2 小时前
Git 从入门到精通:系统性的学习与实践指南
大数据·elasticsearch·搜索引擎
liu_sir_3 小时前
安卓设置界面-关于手机修改为关于设备
android·大数据·elasticsearch
Elasticsearch3 小时前
从平均值到任意百分位数:Elasticsearch 在 ES|QL 中原生支持指数直方图
elasticsearch
yulingfeng595 小时前
Elasticsearch 7.x 新手指南
大数据·elasticsearch·jenkins
jiayi_19996 小时前
[github] 上传本地repo
大数据·elasticsearch·github
逸Y 仙X6 小时前
文章二十八:ElasticSearch 运用指标聚合快速统计数值
java·大数据·elasticsearch·搜索引擎·全文检索
木易 士心6 小时前
一文彻底搞懂 Elasticsearch:原理、场景、避坑与优化
大数据·后端·elasticsearch·搜索引擎
小白编程锤炼7 小时前
深入解析:工程循环
大数据·elasticsearch·搜索引擎·vibe-coding
逸Y 仙X20 小时前
文章二十七:ElasticSearch ES查询模板(Search Template)高效复用实战
java·大数据·数据库·elasticsearch·搜索引擎·全文检索
AC赳赳老秦20 小时前
接口测试自动化:用 OpenClaw 对接 Postman,实现批量回归测试、测试报告自动生成与推送
java·人工智能·python·算法·elasticsearch·deepseek·openclaw