Elasticsearch索引数据的路由规则与自定义路由分发

Elasticsearch通过路由规则将数据高效地分布到各个分片中,实现数据均衡、查询优化及故障恢复。本文将深入探讨索引数据路由的原理,并通过示例展示如何使用自定义路由策略分发数据。

索引数据路由原理

默认路由规则

默认情况下,Elasticsearch使用以下公式计算文档应被写入的分片编号:

markdown 复制代码
shard_num = hash(_routing) % num_primary_shards

其中:

  • _routing:默认为文档的_id,也可以通过请求参数或映射设置指定。
  • num_primary_shards:索引的主分片数。

通过哈希函数和模运算,确保数据在分片间均匀分布,有利于数据均衡、容错和扩展。

分区路由

虽然可以手动指定路由值以减少查询涉及的分片数,但这可能导致大量数据集中到少数分片,造成分片大小不均。为此,Elasticsearch提供索引分区配置,允许使用同一路由值的数据分发到多个分片。在索引设置中启用此功能:

markdown 复制代码
"index.routing_partition_size": N

此时,路由计算公式变为:

markdown 复制代码
shard_num = (hash(_routing) + hash(_id) % routing_partition_size) % num_primary_shards

通过引入_id哈希值和routing_partition_size参数,使得具有相同路由值的文档更均匀地分布到多个分片。

使用自定义路由分发数据

在某些场景下,可能需要根据特定字段(如用户ID、租户ID等)进行数据路由,以实现数据隔离、优化查询性能或简化备份恢复。下面展示如何使用自定义路由策略分发数据。

创建索引并设置自定义路由

首先,创建一个名为person的索引,设置3个主分片和1个副本分片,并要求在写入文档时必须提供路由值:

markdown 复制代码
PUT person
{
  "settings": {
    "number_of_shards": "3",
    "number_of_replicas": "1"
  },
  "mappings": {
    "_routing": {
      "required": true
    }
  }
}

新增数据

向索引中写入一条带有自定义路由值(如"zhangsan")的文档,并立即刷新索引以确保数据可查:

markdown 复制代码
POST person/_doc/1?routing=zhangsan&refresh=true
{
  "id": "1",
  "name": "zhangsan",
  "subject": "语文",
  "score": 100
}

查询数据

由于数据写入时使用了自定义路由值,查询时也必须提供相同的路由值,否则会导致查询失败:

markdown 复制代码
GET person/_doc/1?routing=zhangsan

更新数据

更新文档时同样需要指定路由值,以确保操作作用于正确的分片:

markdown 复制代码
POST person/_update/1?routing=zhangsan&refresh=true
{
  "doc": {
    "score": 120
  }
}

路由优化查询

在检索数据时,提供路由值可以跳过无关分片,减少资源消耗并加速查询:

markdown 复制代码
GET person/_search?routing=zhangsan
{
  "query": {
    "match_all": {}
  }
}

查看路由对应分片

若需确定某个路由值对应的分片信息,可以使用_search_shards REST端点:

markdown 复制代码
GET person/_search_shards?routing=zhangsan

删除数据

删除文档时同样需要指定路由值:

markdown 复制代码
DELETE person/_doc/1?routing=zhangsan

总结而言,Elasticsearch通过路由规则有效地管理和分发索引数据,支持自定义路由策略以满足特定应用场景的需求。理解和熟练运用数据路由机制,有助于优化Elasticsearch集群的性能和稳定性。

相关推荐
Elasticsearch1 天前
通用表达式语言 ( CEL ): CEL 输入如何改进 Elastic Agent 集成中的数据收集
elasticsearch
武子康1 天前
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程
大数据·后端·apache hive
武子康2 天前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
大数据·后端·apache hive
DianSan_ERP3 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
够快云库3 天前
能源行业非结构化数据治理实战:从数据沼泽到智能资产
大数据·人工智能·机器学习·企业文件安全
AI周红伟3 天前
周红伟:智能体全栈构建实操:OpenClaw部署+Agent Skills+Seedance+RAG从入门到实战
大数据·人工智能·大模型·智能体
B站计算机毕业设计超人3 天前
计算机毕业设计Django+Vue.js高考推荐系统 高考可视化 大数据毕业设计(源码+LW文档+PPT+详细讲解)
大数据·vue.js·hadoop·django·毕业设计·课程设计·推荐算法
计算机程序猿学长3 天前
大数据毕业设计-基于django的音乐网站数据分析管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)
大数据·django·课程设计
B站计算机毕业设计超人3 天前
计算机毕业设计Django+Vue.js音乐推荐系统 音乐可视化 大数据毕业设计 (源码+文档+PPT+讲解)
大数据·vue.js·hadoop·python·spark·django·课程设计
十月南城3 天前
数据湖技术对比——Iceberg、Hudi、Delta的表格格式与维护策略
大数据·数据库·数据仓库·hive·hadoop·spark