Elasticsearch 分片down（unassigned shard）常用处理方式

近期多次出现ES集群上报"Elasticsearch实例存在down状态的主分片"或"Elasticsearch实例存在down状态的副本分片"，对该问题现象的处理步骤和方法进行总结。

【可能原因】

问题参考： https://github.com/elastic/elasticsearch/issues/23199

【处理步骤】

登录任意EsNode1节点，执行如下命令查看down分片以及原因，其中unassigned.reason列内容指的是分配unassigned原因。

curl -XGET --negotiate -k -u : "https://ip:port/_cat/shards/indexname?v&h=index,shard,prirep,state,node,ur" | grep UNASSIGNED

说明：indexname，待查询分片列表的索引名称

分片UNASSIGNED的原因包括：

1）INDEX_CREATED：由于创建索引的API导致未分配。

2）CLUSTER_RECOVERED ：由于完全集群恢复导致未分配。

3）INDEX_REOPENED ：由于打开open或关闭close一个索引导致未分配。

4）DANGLING_INDEX_IMPORTED ：由于导入dangling索引的结果导致未分配。

5）NEW_INDEX_RESTORED ：由于恢复到新索引导致未分配。

6）EXISTING_INDEX_RESTORED ：由于恢复到已关闭的索引导致未分配。

7）REPLICA_ADDED：由于显式添加副本分片导致未分配。

8）ALLOCATION_FAILED ：由于分片分配失败导致未分配。

9）NODE_LEFT ：由于承载该分片的节点离开集群导致未分配。

10）REINITIALIZED ：由于当分片从开始移动到初始化时导致未分配（例如，使用影子shadow副本分片）。

11）REROUTE_CANCELLED ：作为显式取消重新路由命令的结果取消分配。

12）REALLOCATED_REPLICA ：确定更好的副本位置被标定使用，导致现有的副本分配被取消，出现未分配。

若unassigned.reason为"ALLOCATION_FAILED"，可以尝试手动重新分片，命令如下：

curl -XPOST --tlsv1.2 --negotiate -k -u : "https://ip:port/_cluster/reroute?retry_failed=true"

问题参考： https://github.com/elastic/elasticsearch/issues/23199

执行解释API查看分片UNASSIGNED的详细原因, 请求中的三个参数可以在步骤1执行命令结果中查询到，第一列为索引名称，第二列为分片编号，第三列为是否主分片。

curl -XGET --negotiate -k -u : "https://ip:port/_cluster/allocation/explain?pretty" -H 'Content-Type:application/json' -d '{

"index": "indexname",

"shard": 17,

"primary": true

说明："index"字段值替换为_cat/shards命令查询结果中第一列的索引名称。"shard"字段值替换为_cat/shards命令查询结果中第二列的分片编号。"primary"字段的值表明要查询的分片是主还是副本，如果_cat/shards命令查询结果中第三列的值为p，说明是主分片，否则是副本分片。

分析explain命令的输出结果，若输出结果中包含"explanation"字段，查看该字段内容是否有推荐处理方式。如果有推荐修复方式，优先执行。
分析第1步_cat/shards命令中处于UNASSIGNED状态的分片，是否集中在少数几个EsNode实例中，如果是，可以尝试单独重启这几个ES实例，触发分片再次恢复。