Elasticsearch 分片down(unassigned shard)常用处理方式

近期多次出现ES集群上报"Elasticsearch实例存在down状态的主分片"或"Elasticsearch实例存在down状态的副本分片",对该问题现象的处理步骤和方法进行总结。

【可能原因】

问题参考: https://github.com/elastic/elasticsearch/issues/23199

【处理步骤】

  1. 登录任意EsNode1节点,执行如下命令查看down分片以及原因,其中unassigned.reason列内容指的是分配unassigned原因。

curl -XGET --negotiate -k -u : "https://ip:port/_cat/shards/indexname?v&h=index,shard,prirep,state,node,ur" | grep UNASSIGNED

说明:indexname,待查询分片列表的索引名称

  1. 分片UNASSIGNED的原因包括:

1)INDEX_CREATED:由于创建索引的API导致未分配。

2)CLUSTER_RECOVERED :由于完全集群恢复导致未分配。

3)INDEX_REOPENED :由于打开open或关闭close一个索引导致未分配。

4)DANGLING_INDEX_IMPORTED :由于导入dangling索引的结果导致未分配。

5)NEW_INDEX_RESTORED :由于恢复到新索引导致未分配。

6)EXISTING_INDEX_RESTORED :由于恢复到已关闭的索引导致未分配。

7)REPLICA_ADDED:由于显式添加副本分片导致未分配。

8)ALLOCATION_FAILED :由于分片分配失败导致未分配。

9)NODE_LEFT :由于承载该分片的节点离开集群导致未分配。

10)REINITIALIZED :由于当分片从开始移动到初始化时导致未分配(例如,使用影子shadow副本分片)。

11)REROUTE_CANCELLED :作为显式取消重新路由命令的结果取消分配。

12)REALLOCATED_REPLICA :确定更好的副本位置被标定使用,导致现有的副本分配被取消,出现未分配。

  1. 若unassigned.reason为"ALLOCATION_FAILED",可以尝试手动重新分片,命令如下:

curl -XPOST --tlsv1.2 --negotiate -k -u : "https://ip:port/_cluster/reroute?retry_failed=true"

问题参考: https://github.com/elastic/elasticsearch/issues/23199

  1. 执行解释API查看分片UNASSIGNED的详细原因, 请求中的三个参数可以在步骤1执行命令结果中查询到,第一列为索引名称,第二列为分片编号,第三列为是否主分片。

curl -XGET --negotiate -k -u : "https://ip:port/_cluster/allocation/explain?pretty" -H 'Content-Type:application/json' -d '{

"index": "indexname",

"shard": 17,

"primary": true

}'

说明:"index"字段值替换为_cat/shards命令查询结果中第一列的索引名称。"shard"字段值替换为_cat/shards命令查询结果中第二列的分片编号。"primary"字段的值表明要查询的分片是主还是副本,如果_cat/shards命令查询结果中第三列的值为p,说明是主分片,否则是副本分片。

  1. 分析explain命令的输出结果,若输出结果中包含"explanation"字段,查看该字段内容是否有推荐处理方式。如果有推荐修复方式,优先执行。

  2. 分析第1步_cat/shards命令中处于UNASSIGNED状态的分片,是否集中在少数几个EsNode实例中,如果是,可以尝试单独重启这几个ES实例,触发分片再次恢复。

相关推荐
代码匠心44 分钟前
从零开始学Flink:TopN 榜单
大数据·后端·flink·flink sql·大数据处理
张较瘦_2 小时前
软件工程 | 需求三层次:用正反对比例子,把复杂概念讲明白
大数据·软件工程
袋鼠云数栈3 小时前
集团数字化统战实战:统一数据门户与全业态监管体系构建
大数据·数据结构·人工智能·多模态
TechubNews4 小时前
Jack Dorsey:告别传统公司层级,借助 AI 走向智能体架构
大数据·人工智能
onebound_noah4 小时前
【实战教程】如何通过API快速获取淘宝/天猫商品评论数据(含多语言Demo)
大数据·数据库
胡耀超5 小时前
Token的八副面孔:为什么“词元“不需要更好的翻译,而需要更多的读者
大数据·人工智能·python·agent·token·代币·词元
带娃的IT创业者5 小时前
WeClaw_42_Agent工具注册全链路:从BaseTool到意图识别的标准化接入
大数据·网络·人工智能·agent·意图识别·basetool·工具注册
TDengine (老段)8 小时前
以事件为核心 + 以资产为核心:工业数据中缺失的关键一环
大数据·数据库·人工智能·时序数据库·tdengine·涛思数据
阿里云大数据AI技术8 小时前
欣和大数据阿里云上升级,打造湖仓一体平台
大数据·人工智能
极创信息9 小时前
信创软件安全加固指南,信创软件的纵深防御体系
java·大数据·数据库·金融·php·mvc·软件工程