【HBZ分享】ES索引分片的写入原理 及 流程

当一条数据写到ES要经历哪些过程?

  1. 当插入一条新的数据时, 数据会进入Translog 和 MemoryBuffer两个内存中,并添加了事务日志,此时该文档不可查询

  2. 当translog大到一定程度时,会发生一个commit操作,也就是全量提交,会把translog中的数据全部刷到磁盘

  3. translog也会先写到os cache中,默认每隔5秒刷一次到磁盘中

  4. 所以默认情况下,可能会有5秒钟数据停留在【buffer】 或者 【translog文件的os cache中】,所以如果在5秒内宕机了,数据就会丢失,所以最多会有5秒的数据丢失

  5. 随后MemoryBuffer会每隔1秒,刷新到Segment段中,每次刷新都会生成新的Segment段,Refresh操作默认是每秒执行一次,即每秒会刷一次到Segment中(总结就是:内存缓冲区数据 ---> 文件系统缓冲区, 都是缓存,内存缓冲区数据不可读,文件系统缓冲区才能读)

  6. 因此在MemoryBuffer中的那1秒是搜不到数据的,有1秒的延迟,只有刷到Segment中才会被搜索

  7. 当文档从MemoryBuffer刷到Segment时,MemoryBuffer会全部被清空,但这个刷新过程是非常耗时的,因此针对实时性不高的数据,可以配置刷洗时间比如30秒刷一次,不要1秒一次,这也是优化性能的重要方法

  8. Segment中的数据默认30分钟会flush刷盘的磁盘中,并且同时会清空translog,而这个过程中,如果translog满了,也会把translog中的数据刷到DISK中,并清空translog。
    注意:5秒一次是针对Translog的,而默认30分钟是针对Segment中的数据刷盘,注意分清这两个刷盘时间的含义

  9. 这个过程中,refresh, flush的刷新刷盘时间可以配置,translog的达到临界size刷盘的这个size也可以配置

    MemoryBuffer配置刷新时间:
    PUT /refreshTest
    {
    "settings": {
    "refresh_interval": "30s"
    }
    }

合并(merge)

  1. 默认每秒都会有新的segment生成,因为MemoryBuffer默认每秒刷一次Segment,所以如果没有合并,则Segment的数量会暴涨,每个段都将消耗文件句柄,内存,和CPU资源。因为搜索的时候也会遍历segment。
  2. 所以ES会在后台合并这些段,ES会定期将一些小的Segment 或 没用的Segment段进行合并,减少存储占用空间
  3. 小段被合并成大段,再合并成更大的段,然后将新的大Segment打开提供搜索,旧的会删除
  4. 不合并segment的影响:
    (1). 每个segment占据的内存【不会】随着gc释放的。导致系统内存不足,进一步导致超时问题
    (2). 查询时会遍历每个segment,过多的segment会导致查询速度下降

刷盘(flush)

  1. 实现文档数据从文件系统缓存中刷到磁盘的过程

  2. 会定期触发,也可以当translog的数据达到某个上限的时候触发flush刷盘操作

  3. 默认条件是: 每30分钟主动进行一次flush, 或者当translog文件大于512MB主动进行一次flush

    配置代码:
    index.translog.flush_threshold_period 和 index.translog.flush_threshold_size

  4. 再ES中,要保证被索引的文档能够立即被搜索到,有两种方法: _refresh 或 _flush。

相关推荐
hef2883 小时前
PLC故障解析与抗干扰策略详解
大数据
qq_2518364573 小时前
基于java Web 耗材购置与维修网络申报审批系统设计与实现
java·开发语言·前端
真恋寄语枫秋3 小时前
【Java零基础入门23】Java线程池深度详解:核心参数、拒绝策略、四种创建方式
java
生活爱好者!3 小时前
用NAS进行漫画创作!一键部署Open WebUI
java·服务器·开发语言·安全·docker
Maddie_Mo3 小时前
Pi Agent Web 使用教程:把本地 Pi Coding Agent 搬进浏览器
android·java·前端·人工智能·ai
红鲤 鱼4 小时前
2026年5月变频器风机品牌推荐:TOP5评测严选工业散热问题指南
大数据
小马爱打代码4 小时前
Spring源码 第十二篇:Spring 全套核心原理 - 完结终章
java·后端·spring
启道张恒4 小时前
飞扬软件「建筑自动化·房间定义」重磅升级:重塑设计效率新标杆
大数据·人工智能·ai设计·bim正向设计·国产二三维设计软件·飞扬集成设计系统
Elastic 中国社区官方博客4 小时前
Elasticsearch:使用预计算上下文降低 agent 成本
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索
m0_715674434 小时前
技术创新突破·可管可控·对标行标 医疗API安全解决方案实践指南
大数据·人工智能·安全