Flink的Checkpoint原理和流程

Flink的Checkpoint原理和流程

Flink的Checkpoint是一种容错恢复机制,用于保证实时程序在遇到异常或机器问题时能够自我恢复。以下是Flink的Checkpoint原理和流程的详细说明:

原理

Flink的Checkpoint机制通过分布式快照算法(Chandy-Lamport算法)实现。JobManager定时触发Checkpoint,通过CheckpointCoordinator向所有Source节点发送触发信号,Source节点向下游广播CheckpointBarrier。下游Task只有在收到所有Input的Barrier后才会执行相应的Checkpoint操作。Task完成状态备份后,会将备份数据的地址(stateHandle)通知给CheckpointCoordinator。最终,CheckpointCoordinator将CheckpointMeta写入到持久化存储中12

流程

  1. 开启Checkpoint功能 :用户可以在程序启动前设置实时任务Checkpoint相关的参数,如间隔时间和语义等。默认情况下,Flink的Checkpoint功能是关闭的1
  2. 触发Checkpoint :JobManager中的CheckpointCoordinator定时触发所有Source的SubTask向下游广播CheckpointBarrier1
  3. Barrier对齐 :下游Task在收到所有Input的Barrier后,开始执行Checkpoint操作。Task处理数据,对齐Barrier,并取最大Barrier发送到下游。同时,进行内存数据刷到磁盘的操作,并调用Task的SnapshotState方法2
  4. 状态备份 :Task完成状态备份后,将备份数据的地址(stateHandle)通知给CheckpointCoordinator2
  5. 本地快照 :下游的Sink节点在收集齐上游所有Input的Barrier后,执行本地快照。对于RocksDB增量Checkpoint,首先全量刷数据到磁盘,然后选择未上传的文件进行持久化备份2
  6. 元数据写入 :CheckpointCoordinator收集所有Task的stateHandle后,将CheckpointMeta写入到持久化存储中,完成一次Checkpoint操作2
相关推荐
南修子2 小时前
【Flink 30天】Day24-27 实时数仓规范:ODS→DWD→DWS→ADS 分层 + Temporal Join + 生产最佳实践
clickhouse·flink·实时数仓·数据分层·temporaljoin
代码匠心3 天前
从零开始学Flink:Flink SQL四大Join解析
大数据·flink·flink sql·大数据处理
大大大大晴天9 天前
Flink生产问题排障-HBase NotServingRegionException
flink·hbase
大大大大晴天10 天前
Flink生产问题排障-Kryo serializer scala extensions are not available
大数据·flink
yumgpkpm14 天前
AI视频生成:Wan 2.2(阿里通义万相)在华为昇腾下的部署?
人工智能·hadoop·elasticsearch·zookeeper·flink·kafka·cloudera
后季暖14 天前
flink火焰图使用
大数据·flink
weixin_3954489114 天前
cursor日志0224
eureka·flink·etcd
代码匠心14 天前
从零开始学Flink:Flink SQL 元数据持久化实战
大数据·flink·flink sql·大数据处理