Elasticsearch 的存储原理

关于 Elasticsearch 的存储原理 ，文章将从 整体架构、底层结构、Lucene 段文件、写入-刷新-合并机制、以及运维经验 五个方面详细说明。

一、总结一句话

Elasticsearch 的数据最终是存储在 Lucene 的倒排索引文件中，按照"写入内存缓冲 → 刷盘生成 segment → 合并优化"的过程持续进行，并通过分片机制分布式存储。

二、存储架构概览

sql 复制代码

Index（逻辑索引）
├── Shard（逻辑分片） → Primary + Replica
│   ├── Lucene Index（物理索引）
│   │   ├── Segment 文件（多个）
│   │   ├── .fdt、.fdx、.tim、.tip、.doc、.cfs...

三、底层存储结构：Lucene Segment

Lucene 中常见 segment 文件类型：

一个 segment 一旦生成就不会修改，删除是通过标记 deleted_docs 来实现。

四、写入 → 刷新 → 合并（segment lifecycle）

写入阶段

刷新（refresh）

flush

合并（merge）

五、经验与调优

场景	现象	优化建议
大量 segment 存在	查询变慢，句柄过多	配置 `merge.policy` 控制自动合并，或使用 `force merge`
写入磁盘慢	I/O 等待高	使用 SSD，合理配置 refresh/flush 间隔
数据丢失	crash 时未写入磁盘	开启 `translog.durability=async`（提高写入）或 `request`（提高安全）
冷数据占用空间大	老数据 segment 多	考虑使用 `rollover + ILM` 做冷热分离

总结一句话

Elasticsearch 的存储底层依赖 Lucene，通过 segment 文件组成倒排索引，并通过写入 → 刷新 → 合并机制确保数据可搜索、可持久、性能可控，熟悉这些原理有助于我们在写入调优、查询性能、集群稳定性方面做出更好的决策。