Elasticsearch原理知识点及整体结构

Elasticsearch整体结构

整体结构说明：

在ES Index集群模式下，有多个Node（节点）组成。每个节点都是ES的实例
每个节点有多个shard（分片），P0，P1，P2是主分片，R0，R1，R2为副本分片
每个分片上对应着就是一个Lucene Index（底层索引文件）
Lucene Index 是一个统称
- 由多个Segment（段文件，即倒排索引）组成。每个段文件存储的就是Doc文档
- Commit Point 记录了所有segments的信息
- Memory Buffer，数据缓冲区
- TransLog，事务日志

更多文件类型(可参考这里)如下：

文件的关系如下：

创建索引的过程：

搜索索引的过程：

将 Document 写入到 Memory Buffer（内存缓冲区）
当满足一定条件后内存缓冲区中的 Documents 刷新到高速缓存（Cache），数据从 Buffer 到 Cache 的过程是定期每秒刷新一次
生成新的 Segment，这个 Segment 还在 Cache 中；这时候还没有 commit，但是已经可以被读取了

flush 操作会分为以下几步执行：

值得注意的是：

Segment 不可改变，所以 Docment 并不能从之前的 Segment 中移除或更新。

所以每次 commit，生成 commit point 时，会有一个 .del 文件，里面会列出被删除的 Document（逻辑删除）。

而查询时，获取到的结果在返回前会经过 .del 过滤。更新时，也会标记旧的 Docment 被删除，写入到 .del 文件，同时会写入一个新的文件。

此时查询会查询到两个版本的数据，但在返回前会被移除掉一个。

每 1s 执行一次 Refresh 都会将内存中的数据创建一个 Segment。

Segment 数目太多会带来较大的麻烦。每一个 Segment 都会消耗文件句柄、内存和 cpu 运行周期。

更重要的是，每个搜索请求都必须轮流检查每个 Segment，所以 Segment 越多，搜索也就越慢。

在 ES 后台会有一个线程进行 Segment 合并：

说明合并完成时的活动：

新的 Segment 被刷新（flush）到了磁盘。写入一个包含新 Segment 且排除旧的和较小的 Segment的新 commit point。
新的 Segment 被打开用来搜索。
老的 Segment 被删除（物理删除）