flink checkpoint barrier对齐机制

flink的checkpoint 采用了 Chandy-Lamport 机制,分布式快照

开启checkpoint 需要指定checkpoint的周期和checkpoint的模式

在开启checkpoint后,假如指定了 10秒 一次,ck模式为 exactly once (barrier对其模式)

前10秒的数据流过去之后,此时jobmanager向各个subtask进程发送一个ckeckpoint准备请求,且会从source端往数据流中插入一个barrier标记,每个subtask收到这个barrier后要进行状态的备份。

一个subtask的数据如果只来自于上游的一个subtask,此时遇到barrier后直接备份当前状态,并且向jobmanager发送ack响应。如果一个subtask来自上游多个subtask,因为上有subtask的barrier到达有早有晚,上游最早的barrier到达之后,收到其他上游数据后被缓存到内存中,不会进行处理,直到上游最晚的barrier到达后,这个subtask会进行一次状态备份,并且向jobmanager发送ack响应。简单说就是多个上游任务向同一个下游任务传递分界线时,需要在下游任务执行"barrier对齐"操作,也就是需要等到所有并行分区的barrier都到齐,才可以开始状态的保存。

jobmanager 收到所有的ack响应后。才认为本次checkpoint是完整的,然后给各个subtask发送callBack通知,告诉他们这次checkpoint成功,

当最终的sink端收到了callBack响应后,就会进行commit,比如支持事务的jdbcsink.exactlyOnceSink(),在收到callback后才会进行commit

上述流程就是flink中 barrier对齐的checkpoint算法

相关推荐
RD_daoyi7 分钟前
Google SEO 第六周:外链建设与网站权重提升 —— 让排名直冲首页的终极推力
大数据·学习·搜索引擎
段一凡-华北理工大学25 分钟前
工业领域的Hadoop架构学习~系列文章17:Hadoop性能调优- 调度集群每一分性能
大数据·人工智能·hadoop·分布式·学习·架构·高炉炼铁
KaMeidebaby28 分钟前
卡梅德生物技术快报|蛋白定制:ACE 抑制肽原辅料工艺全参数|适配蛋白定制的提取 & 酶解标准化实操手册
大数据·人工智能·架构·spark·新浪微博
团象科技29 分钟前
中小出海团队运维观察:WordPress站点境外云环境搭建实操路径梳理
大数据·运维·人工智能
沐籽李30 分钟前
Proteina-Complexa:NVIDIA 如何把蛋白 Binder 设计推进到全原子生成时代?
大数据·人工智能·算法·英伟达·蛋白质生成
无忧智库43 分钟前
服饰行业数字化转型:服饰企业供应链高效数字化管理方案(PPT)
大数据
孟俊宇-MJY43 分钟前
CSDN AI数字营销内容创作功能测评
大数据·人工智能
Jelena157795857921 小时前
主流电商平台(淘宝/1688/京东/拼多多)商品比价与数据分析实战指南
大数据·人工智能·数据分析
其利天下技术1 小时前
第三代半导体“碳化硅(SiC)器件”基础知识详解--【其利天下】
大数据·人工智能·第三代半导体·碳化硅技术及其运用·其利天下技术
跨境小彭1 小时前
2026跨境电商精细化洗牌:破解利润核算与多店运维痛点,实操工具全解析
大数据·运维·信息可视化·跨境电商·temu·temu电商运营