ElasticSearch核心引擎Apache Lucene（四）：段 (Segment) 的设计与合并

文章目录

- [一、核心设计哲学：Segment 的不可变性 (Immutability)](#一、核心设计哲学：Segment 的不可变性 (Immutability))
- - [1.1 为什么设计成不可变？](#1.1 为什么设计成不可变？)
  - [1.2 如何处理"更新"与"删除"？](#1.2 如何处理“更新”与“删除”？)
- [二、 Segment 的生命周期与写入流程](#二、 Segment 的生命周期与写入流程)
- - [2.1 写入时序图](#2.1 写入时序图)
- [三、段合并 (Segment Merge) 的必要性](#三、段合并 (Segment Merge) 的必要性)
- - [3.1 带来的问题](#3.1 带来的问题)
  - [3.2 Merge 的过程](#3.2 Merge 的过程)
- [四、核心策略：TieredMergePolicy](#四、核心策略：TieredMergePolicy)
- - [4.1 传统策略 vs TieredMergePolicy](#4.1 传统策略 vs TieredMergePolicy)
  - [4.2 关键参数解析](#4.2 关键参数解析)
  - [4.3 性能权衡 (Trade-off)](#4.3 性能权衡 (Trade-off))
- [五、运维实战建议](#五、运维实战建议)
- 结语

在分布式搜索引擎 ElasticSearch (ES) 的冰山之下，隐藏着一个强大的心脏------Apache Lucene。ES 的高性能检索、倒排索引构建以及数据持久化，本质上都是由 Lucene 完成的。

而在 Lucene 的设计哲学中，Segment (段) 是最为核心的概念之一。理解 Segment 的不可变性（Immutability）以及合并（Merge）策略，是掌握 ES 写入性能优化、磁盘 IO 调优以及检索延迟分析的关键。

本文将深入拆解 Lucene 的 Segment 设计原理。

一、核心设计哲学：Segment 的不可变性 (Immutability)

在 Lucene 中，索引（Index） 是由多个 段（Segment） 组成的。每个 Segment 本质上就是一个独立的、完整的倒排索引子集。

Lucene 最具决定性的设计决策之一就是：Segment 一旦写入磁盘，就是不可变的（Immutable）。

1.1 为什么设计成不可变？

不可变性看似限制了灵活性（无法直接修改文档），但却带来了巨大的系统级优势：

无需锁机制 (Lock-Free Read)：由于文件内容不会变，多个线程并发读取时完全不需要加锁，这极大地提升了查询的并发吞吐量。
文件系统缓存友好 (OS Filesystem Cache)：操作系统非常喜欢静态文件。Lucene 生成的 Segment 文件会被 OS 积极地加载到 Page Cache 中。只要内存足够，后续的 IO 操作几乎都是内存级别的访问。
便于压缩：静态数据可以进行高压缩比的编码（如 Frame of Reference, FST 等），因为不需要预留空间给未来的修改。
数据恢复安全：由于旧数据不会被覆盖，系统崩溃后，已写入的数据天然安全。

1.2 如何处理"更新"与"删除"？

既然文件不可变，那如何实现 CRUD 中的 Update 和 Delete？

删除 (Delete) ：

Lucene 并不物理删除数据，而是维护一个 .del 文件（位图文件）。当用户发送删除请求时，Lucene 仅仅是在 .del 文件中将该文档标记为"已删除"。

注意：搜索时，这些文档依然会被读出来，但在结果返回前会被过滤器（Filter）拦截丢弃。
更新 (Update) ：

更新本质上是 Delete + Insert 。ES 会先将旧文档在 .del 文件中标记删除，然后生成一个新的文档写入新的 Segment 中。

Lucene Index
Segment_0
倒排索引文件
正排索引文件
Delete文件 (.del)
Segment_1
倒排索引文件
DocValues
Segment_2
...
Memory Buffer
新写入数据

二、 Segment 的生命周期与写入流程

为了理解 Segment 的产生，我们需要理清数据从写入到落盘的流程。

2.1 写入时序图

Disk (Segments) OS Filesystem Cache Transaction Log Memory Buffer 客户端 Disk (Segments) OS Filesystem Cache Transaction Log Memory Buffer 客户端 Refresh (默认1秒) 此时文档可被搜索 Flush (触发阈值或定时) 1. 写入文档 (Index Request) 2. 写入 Translog (防止断电丢失) 3. 生成新的 Segment (Opened) 清空 Buffer 4. Fsync (强制刷盘) 5. 清空/截断 Translog

Write：数据先写入内存缓冲区（Buffer），同时写入 Translog（保证持久性）。
Refresh ：默认每秒一次，Buffer 中的数据生成一个新的 Segment，写入 OS Cache 。此时 Segment 未落盘 ，但已开放搜索（这就是 ES 被称为"近实时 NRT"的原因）。
Flush ：当 Translog 过大或定时触发，执行 Flush。调用 fsync 将 OS Cache 中的 Segment 强制写入物理磁盘，并清空 Translog。

三、段合并 (Segment Merge) 的必要性

由于 Refresh 频率很高（默认 1 秒），Lucene 会产生大量微小的 Segment 文件。

3.1 带来的问题

资源消耗：每个 Segment 都会消耗文件句柄、内存和 CPU。
搜索延迟：搜索请求必须遍历所有 Segment，然后合并结果。Segment 越多，查询越慢。

3.2 Merge 的过程

为了解决上述问题，Lucene 会在后台默默运行 Merge 线程。

选择：根据合并策略（MergePolicy）挑选出若干个 Segment。
合并：创建一个新的大 Segment，将旧 Segment 的数据读取并写入新 Segment。
物理删除 ：
- 在合并过程中，.del 文件中标记为删除的文档会被彻底丢弃（这是释放磁盘空间的唯一时刻）。
- 新 Segment 写入完成后，旧的 Segment 被物理删除。

After Merge
Before Merge
Segment A

(包含 10% 删除文档)
Segment B
Segment C

(包含 5% 删除文档)
后台 Merge 线程
Segment New

(已剔除删除文档

结构更紧凑)

四、核心策略：TieredMergePolicy

Lucene 并非简单地将相邻的段合并，现代版本默认使用的是 TieredMergePolicy（分层合并策略）。

4.1 传统策略 vs TieredMergePolicy

LogByteSizeMergePolicy (旧)：倾向于合并相邻的、大小相近的段。容易产生"长尾"效应。
TieredMergePolicy (新) ：
- 不强制合并相邻段。
- 将 Segment 按大小分层（Tier）。
- 核心逻辑 ：优先合并那些 "即便合并后，总 Segment 数量也能显著减少" 的组合，同时尽量合并 包含删除文档较多 的段（为了回收空间）。

4.2 关键参数解析

TieredMergePolicy 的行为由以下参数控制（可在 ES 中动态调整）：

参数	默认值	含义
`index.merge.policy.segments_per_tier`	10	每层允许存在的最大 Segment 数量。值越小，Merge 越频繁，查询越快，写入开销越大。
`index.merge.policy.max_merged_segment_size`	5GB	单个 Segment 的最大体积。超过这个大小的段不再参与常规合并（防止巨型段合并导致磁盘 IO 飙升）。
`index.merge.policy.deletes_pct_allowed`	33%	如果某个层级的删除文档比例超过此值，会更积极地合并该层级以回收空间。

4.3 性能权衡 (Trade-off)

Merge 是一个极为消耗 IO 和 CPU 的操作。

IO Throttle（IO 限流）：ES 限制了 Merge 线程的磁盘吞吐量（默认 20MB/s，但在 SSD 时代这个值通常需要调大），防止 Merge 抢占正常的搜索和写入资源。
Stop-The-World 风险 ：如果写入速度极快，Merge 速度跟不上，Segment 数量会暴增。当达到 index.merge.scheduler.max_thread_count 限制时，ES 会强制阻塞写入线程 ，直到 Merge 完成。这被称为 Throttling ，在日志中体现为 Too many open files 或写入延迟激增。

五、运维实战建议

基于以上原理，在生产环境中，我们可以进行针对性的优化：

冷数据 Force Merge ：

对于日志类索引（按天/月滚动），一旦索引不再写入，建议手动执行 _forcemerge?max_num_segments=1。这可以将所有小段合并为一个大段，极大提升查询性能并释放空间。
- 警告：不要对正在写入的热索引执行 Force Merge！
调整 Refresh Interval ：

如果业务对实时性要求不高，将 refresh_interval 从默认的 1s 调整为 30s，可以显著减少小 Segment 的产生，进而减少 Merge 的压力。
关注 IO Wait ：

如果发现磁盘 IO 持续 100%，且大量读写来自 Merge 线程，考虑适当增加 index.merge.scheduler.max_thread_count（仅限 SSD）或检查是否需要扩容节点。

结语

Apache Lucene 的 Segment 设计是在写入吞吐量、查询延迟和磁盘空间利用率之间做出的精妙平衡。

Immutability 保证了读取的高效和安全。
Merge 解决了碎片化问题，并承担了物理删除数据的职责。
TieredMergePolicy 则通过智能分层，防止了合并风暴的发生。