Flink的Checkpoint原理和流程

Flink的Checkpoint原理和流程

Flink的Checkpoint是一种容错恢复机制,用于保证实时程序在遇到异常或机器问题时能够自我恢复。以下是Flink的Checkpoint原理和流程的详细说明:

原理

Flink的Checkpoint机制通过分布式快照算法(Chandy-Lamport算法)实现。JobManager定时触发Checkpoint,通过CheckpointCoordinator向所有Source节点发送触发信号,Source节点向下游广播CheckpointBarrier。下游Task只有在收到所有Input的Barrier后才会执行相应的Checkpoint操作。Task完成状态备份后,会将备份数据的地址(stateHandle)通知给CheckpointCoordinator。最终,CheckpointCoordinator将CheckpointMeta写入到持久化存储中12

流程

  1. 开启Checkpoint功能 :用户可以在程序启动前设置实时任务Checkpoint相关的参数,如间隔时间和语义等。默认情况下,Flink的Checkpoint功能是关闭的1
  2. 触发Checkpoint :JobManager中的CheckpointCoordinator定时触发所有Source的SubTask向下游广播CheckpointBarrier1
  3. Barrier对齐 :下游Task在收到所有Input的Barrier后,开始执行Checkpoint操作。Task处理数据,对齐Barrier,并取最大Barrier发送到下游。同时,进行内存数据刷到磁盘的操作,并调用Task的SnapshotState方法2
  4. 状态备份 :Task完成状态备份后,将备份数据的地址(stateHandle)通知给CheckpointCoordinator2
  5. 本地快照 :下游的Sink节点在收集齐上游所有Input的Barrier后,执行本地快照。对于RocksDB增量Checkpoint,首先全量刷数据到磁盘,然后选择未上传的文件进行持久化备份2
  6. 元数据写入 :CheckpointCoordinator收集所有Task的stateHandle后,将CheckpointMeta写入到持久化存储中,完成一次Checkpoint操作2
相关推荐
段一凡-华北理工大学4 小时前
工业领域的Hadoop架构学习~系列文章08:Flink流处理引擎
人工智能·hadoop·学习·架构·flink·高炉炼铁·高炉炼铁智能化
Volunteer Technology5 小时前
Flink的函数接口与富函数类
大数据·flink
Volunteer Technology6 小时前
Flink编程模型与API(四)
大数据·flink
大大大大晴天️1 天前
告别数据重复与丢失:Flink Exactly-Once 原理解析
大数据·flink
Volunteer Technology1 天前
Flink编程模型与API(二)
大数据·数据库·flink
大大大大晴天1 天前
告别数据重复与丢失:Flink Exactly-Once 原理解析
flink
白露与泡影1 天前
告别OOM焦虑:Flink 内存模型原理与诊断调优
大数据·flink
阿里云大数据AI技术2 天前
优路教育借助阿里云Flink+StarRocks+Paimon湖仓一体化构建职业教育业务全链路实时数据服务平台
人工智能·flink
愤怒的苹果ext2 天前
Flink同步到ES时间遇到的问题
elasticsearch·flink·时间