ElasticSearch|ES|架构介绍|原理浅析

节点 (Nodes) :

Elasticsearch 集群由多个节点组成，每个节点是一个独立运行的 Elasticsearch 实例。节点之间通过内部通信协议相互协作。

Master Node:
- 主节点负责管理集群范围的操作，例如创建或删除索引、分配和重新分配分片、维护集群状态等。主节点并不直接参与数据存储和查询。
Data Node:
- 数据节点负责存储索引数据并执行相关的 CRUD 操作（创建、读取、更新、删除）。它们持有索引的分片，并执行实际的搜索和聚合操作。
Client Node:
- 客户端节点专门处理请求的路由、搜索和聚合计算，但不存储数据。通常客户端角色会和其他角色如数据节点合并在一起。

索引和分片 (Indices and Shards) :

Elasticsearch 中的数据按照索引组织，每个索引又被划分为多个分片（默认情况下是主分片和副本分片）。这种水平分割策略使得数据可以分布在整个集群上，实现水平扩展和高可用性。

集群发现与协调 (Cluster Discovery & Coordination) :

Elasticsearch 使用 Zen Discovery 进行节点间的自动发现和集群健康检查。此外，通过使用不同的选举算法确定主节点，确保集群始终有一个活跃的主节点来管理和维护集群状态。

一致性层 (Consistency Layer) :

借助版本控制和乐观并发控制机制，Elasticsearch 在分布式环境中提供了一致性的保证。当对文档进行修改时，系统会跟踪文档的版本号，防止并发冲突。

数据持久化与恢复 :

Elasticsearch 数据首先写入 Lucene 的倒排索引文件，然后同步至磁盘，并配合 Translog 日志（transaction log）确保在宕机时能恢复未完全提交的数据。

Lucene 基础 :

Elasticsearch 构建在 Apache Lucene 之上，Lucene 是一个强大的文本搜索库，提供了高效的索引和搜索功能。Elasticsearch 对 Lucene 进行了封装和扩展，使其成为一个分布式系统。

分布式搜索与索引 :

Elasticsearch 将索引拆分成多个分片，分散存储在不同节点上。查询时，请求会被路由到拥有相关数据分片的节点上进行本地搜索，然后将结果汇聚返回给客户端。

实时性 :

Elasticsearch 支持近乎实时（Near Real-Time, NRT）的索引更新和搜索，通过异步方式将内存中的索引变更刷新到磁盘，并且在每次刷新后立即使之可用于搜索。

横向扩展 :

随着数据量的增长和负载需求的变化，可以通过添加更多的节点来扩展集群容量。Elasticsearch 自动管理和均衡分片在各个节点之间的分布，确保整个系统的负载均衡。

故障转移与高可用 :

每个索引分片都有相应的副本分片，分布在不同的节点上。当主分片不可用时，副本分片可以自动提升为主分片，从而维持集群的高可用性和数据完整性。