ElasticSearch的集群、节点、索引、分片和副本

Elasticsearch是面向文档型数据库，一条数据在这里就是一个文档。为了方便大家理解，我们将Elasticsearch里存储文档数据和关系型数据库MySQL存储数据的概念进行一个类比

ES里的Index可以看做一个库，而Types相当于表，Documents则相当于表的行。

这里Types的概念已经被逐渐弱化，Elasticsearch 6.X中，一个index下已经只能包含一个type，Elasticsearch 7.X中, Type的概念已经被删除了。

1. 集群(C luster)

1.1 集群简介

分布式系统的可用性与扩展性

高可用性

服务可用性一允许有节点停止服务

数据可用性－部分节点丢失，不会丢失数据

可扩展性

请求量提升一数据的不断增长（将数据分布到所有节点上）

Easticsearch 的分布式架构的好处

存储的水平扩容

提高系统的可用性，部分节点停止服务，整人集群的服务不受影响

Elasticsearch的分布式架构

不同的集群通过不同的名字来区分，默认名字"elasticsearch"

通过配置文件修改，或者在命令行中-E cluster.name=cluster_name 进行设定

一人集群可以有一人或者多人节点

一个集群就是由一个或多个服务器节点组织在一起，共同持有整个的数据，并一起提供索引和搜索功能。

一个Elasticsearch集群有一个唯一的名字标识，这个名字默认就是"elasticsearch"。这个名字是重要的，因为一个节点只能通过指定某个集群的名字，来加入这个集群。

1.1 集群健康状态

复制代码

# 获取集群健康状态`
`GET _cluster/health`
`# 获取集群健康状态，精确到索引`
`GET _cluster/health?level=indices`
`# 获取集群健康状态，精确到分片`
`GET _cluster/health?level=shards`
`# 获取集群健康状态，精确到某几个索引`
`GET /_cluster/health/kibana_sample_data_ecommerce,kibana_sample_data_flights`
`# 获取集群健康状态，精确到某个索引的分片`
`GET /_cluster/health/kibana_sample_data_flights?level=shards

复制代码

{`
  `"cluster_name"` `:` `"elasticsearch",`
  `"status"` `:` `"green",`
  `"timed_out"` `:` `false,`
  `"number_of_nodes"` `:` `1,`
  `"number_of_data_nodes"` `:` `1,`
  `"active_primary_shards"` `:` `12,`
  `"active_shards"` `:` `12,`
  `"relocating_shards"` `:` `0,`
  `"initializing_shards"` `:` `0,`
  `"unassigned_shards"` `:` `0,`
  `"delayed_unassigned_shards"` `:` `0,`
  `"number_of_pending_tasks"` `:` `0,`
  `"number_of_in_flight_fetch"` `:` `0,`
  `"task_max_waiting_in_queue_millis"` `:` `0,`
  `"active_shards_percent_as_number"` `:` `100.0`
`}

1.2 集群详细信息

复制代码

GET _cluster/state

1.3 集群的统计信息

复制代码

GET _cluster/stats

返回结果包含集群、节点、索引的详细统计信息。

1.3 集群的设置信息

复制代码

GET /_cluster/settings`
`# 包含默认值设置`
`GET /_cluster/settings?include_defaults=true

复制代码

{`
  `"persistent"` `:` `{` `},`
  `"transient"` `:` `{` `}`
`}

2. 节点(N ode)

2.1 节点简介

节点是一个 Elasticsearch 的实例，本质上就是一个JAVA进程。

一台机器上可以运行多个Elasticsearch 进程，但是生产环境一般建议一台机器上只运

行一个 Elasticsearch 实例。

每一个节点都有名字，通过配置文件配置，或者启动时候-E node.name=node1指定。

每一个节点在启动之后，会分配一个 UID，保存在 data 目录下。

集群中包含很多服务器，一个节点就是其中的一个服务器。作为集群的一部分，它存储数据，参与集群的索引和搜索功能。

一个节点也是由一个名字来标识的，默认情况下，这个名字是一个随机的漫威漫画角色的名字，这个名字会在启动的时候赋予节点。这个名字对于管理工作来说挺重要的，因为在这个管理过程中，你会去确定网络中的哪些服务器对应于Elasticsearch集群中的哪些节点。

一个节点可以通过配置集群名称的方式来加入一个指定的集群。默认情况下，每个节点都会被安排加入到一个叫做"elasticsearch"的集群中，这意味着，如果你在你的网络中启动了若干个节点，并假定它们能够相互发现彼此，它们将会自动地形成并加入到一个叫做"elasticsearch"的集群中。

|-------------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 节点类型 | 描述 |
| Master-eligible nodes 和 Master Node | 每个节点启动后，默认就是一个Master eligible节点，可以设置 node.master:false 禁止 Master-eligible节点可以参加选主流程，成为Master节点当第一个节点启动时候，它会将自己选举成Master节点每个节点上都保存了集群的状态，只有Master节点才能修改集群的状态信息集群状态（Cluster State），维护了一个集群中，必要的信息 1）所有的节点信息 2）所有的索引和其相关的 Mapping 与 Setting 信息 3）分片的路由信息任意节点都能修改信息会导致数据的不一致性 |
| Data Node | 可以保存数据的节点，叫做Data Node。负责保存分片数据。在数据扩展上起到了至关重要的作用 |
| Coordinating Node | 负责接受Client的请求，将请求分发到合适的节点，最终把结果汇集到一起，每个节点默认都起到了 Coordinating Node的职贵 |
| Hot & Warm Node | 不同硬件配置的 Data Node，用来实现 Hot ＆ Warm 架构，降低集群部署的成本 |
| Machine Learning Node | 负责跑机器学习的Job，用来做异常检测 |
| Tribe Node | (5.3 开始使用 Cross Cluster Serarch）Tribe Node 连接到不同的 Elasticsearch 集群，并且支持将这些集群当成一个单独的集群处理 |

2.2 节点基本信息

复制代码

GET _cat/nodes?v`
`GET /_cat/nodes?v&h=id,ip,port,v,m

2.3 获取单个节点的详细信息

复制代码

GET /_nodes/node-1

3. 索引 (Index)

一个索引就是一个拥有几分相似特征的文档的集合。比如说，你可以有一个客户数据的索引，另一个产品目录的索引，还有一个订单数据的索引。一个索引由一个名字来标识（必须全部是小写字母），并且当我们要对这个索引中的文档进行索引、搜索、更新和删除的时候，都要使用到这个名字。在一个集群中，可以定义任意多的索引。

能搜索的数据必须索引，这样的好处是可以提高查询速度，比如：新华字典前面的目录就是索引的意思，目录可以提高查询速度。

Elasticsearch索引的精髓：一切设计都是为了提高搜索的性能。

3.1 页面查看索引信息

页面查看索引信息，左侧菜单打开StackManagement

包括隐藏的索引

3.2 命令查看索引信息

或者可以切换到开发工具视图，用开发工具查询

复制代码

GET /_cat/indices

3.3 查看kibana前缀的索引信息

复制代码

GET /_cat/indices/kibana*?v&s=index

3.4 查看状态为健康的索引信息

复制代码

GET /_cat/indices?v&health=green

3.5 索引文档数量排序

复制代码

GET /_cat/indices?v&s=docs.count:desc

3.6 查看单个索引的详细信息

复制代码

GET kibana_sample_data_ecommerce

在这里会列出索引的别名、映射和设置信息。

3.7 查看索引的文档总数

复制代码

#查看索引的文档总数`
`GET kibana_sample_data_ecommerce/_count

复制代码

{`
  `"count" : 4675,`
  `"_shards" : {`
    `"total" : 1,`
    `"successful" : 1,`
    `"skipped" : 0,`
    `"failed" : 0`
`  }`
`}`
`

3.8 查看索引的前10条文档

复制代码

#查看前10条文档，了解文档格式`
`POST kibana_sample_data_ecommerce/_search

3.9 创建索引

复制代码

PUT myindex

3.10 删除索引

复制代码

DELETE myindex

4.分片(S hards)

4 .1 分片简介

一个索引可以存储超出单个节点硬件限制的大量数据。比如，一个具有10亿文档数据的索引占据1TB的磁盘空间，而任一节点都可能没有这样大的磁盘空间。或者单个节点处理搜索请求，响应太慢。为了解决这个问题，Elasticsearch提供了将索引划分成多份的能力，每一份就称之为分片。

当你创建一个索引的时候，你可以指定你想要的分片的数量。每个分片本身也是一个功能完善并且独立的"索引"，这个"索引"可以被放置到集群中的任何节点上。

分片很重要，主要有两方面的原因：

1）允许你水平分割 / 扩展你的内容容量。

2）允许你在分片之上进行分布式的、并行的操作，进而提高性能/吞吐量。

至于一个分片怎样分布，它的文档怎样聚合和搜索请求，是完全由Elasticsearch管理的，对于作为用户的你来说，这些都是透明的，无需过分关心。

被混淆的概念是，一个 Lucene 索引我们在 Elasticsearch 称作分片。一个 Elasticsearch 索引是分片的集合。当 Elasticsearch 在索引中搜索的时候，他发送查询到每一个属于索引的分片(Lucene 索引)，然后合并每个分片的结果到一个全局的结果集。

总之，每个索引可以被分成多个分片。一个索引也可以被复制0次（意思是没有复制）或多次。一旦复制了，每个索引就有了主分片（作为复制源的原来的分片）和复制分片（主分片的拷贝）之别。分片和复制的数量可以在索引创建的时候指定。在索引创建之后，你可以在任何时候动态地改变复制的数量，但是你事后不能改变分片的数量。默认情况下，Elasticsearch中的每个索引被分片1个主分片和1个复制，这意味着，如果你的集群中至少有两个节点，你的索引将会有1个主分片和另外1个复制分片（1个完全拷贝），这样的话每个索引总共就有2个分片，我们需要根据索引需要确定分片个数。

4.2 主分片 (Primary Shard )和副本分片( Replica Shard)

主分片，用以解决数据水平扩展的问题。通过主分片，可以将数据分布到集群内的所有节点之

一个分片是一人运行的 Lucene 的实例

主分片数在索引创建时指定，后续不允许修改，除非 Reindex副本，用以解决数据高可用的问题。分片是主分片的拷贝。

副本分片数，可以动态题调整。

增加副本数，还可以在一定程度上提高服务的可用性（读取的吞吐）。

4.3 分片设定策略

一个三节点的集群中，blogs 索引的分片分布情况，思考：增加一个节点或改大主分片数对系统的影响？

对于生产环境中分片的设定，需要提前做好容量规划

|---------|-----------------------------------------------------------------------------------------------|
| 分片数设置过小 | 1）后续无法增加节点实现水品扩展 2）单个分片的数据量太大，导致数据重新分配耗时 |
| 分片数设置过大 | 1）影响搜索结果的相关性打分，影响统计结果的准确性 2）单个节点上过多的分片，会导致资源浪费，同时也会影响性能 3）7.0开始，默认主分片设置成1，解决了over-sharding的问题 |

复制代码

GET _cat/shards`
`GET _cat/shards?h=index,shard,prirep,state,unassigned.reason

5.副本(R eplicas)

在一个网络 / 云的环境里，失败随时都可能发生，在某个分片/节点不知怎么的就处于离线状态，或者由于任何原因消失了，这种情况下，有一个故障转移机制是非常有用并且是强烈推荐的。为此目的，Elasticsearch允许你创建分片的一份或多份拷贝，这些拷贝叫做复制分片(副本)。

复制分片之所以重要，有两个主要原因：

1）在分片/节点失败的情况下，提供了高可用性。因为这个原因，注意到复制分片从不与原/主要（original/primary）分片置于同一节点上是非常重要的。

2）扩展你的搜索量/吞吐量，因为搜索可以在所有的副本上并行运行。

ElasticSearch的集群、节点、索引、分片和副本

1. 集群(C luster)

1.1 集群 简介

1.1 集群健康状态

1.2 集群详细信息

1.3 集群的统计信息

1.3 集群的设置信息

2. 节点(N ode)

2.1 节点简介

2.2 节点基本信息

2.3 获取单个节点的详细信息

3. 索引 (Index)

3.1 页面查看索引信息

3.2 命令查看索引信息

3.3 查看kibana前缀的索引信息

3.4 查看状态为健康的索引信息

3.5 索引文档数量排序

3.6 查看单个索引的详细信息

3.7 查看索引的文档总数

3.8 查看索引的前10条文档

3.9 创建索引

3.10 删除索引

4.分片(S hards)

4 .1 分片简介

4.2 主分片 (Primary Shard )和副本分片( Replica Shard)

4.3 分片设定策略

5.副本(R eplicas)

1.1 集群简介