flink checkpoint barrier对齐机制

flink的checkpoint 采用了 Chandy-Lamport 机制,分布式快照

开启checkpoint 需要指定checkpoint的周期和checkpoint的模式

在开启checkpoint后,假如指定了 10秒 一次,ck模式为 exactly once (barrier对其模式)

前10秒的数据流过去之后,此时jobmanager向各个subtask进程发送一个ckeckpoint准备请求,且会从source端往数据流中插入一个barrier标记,每个subtask收到这个barrier后要进行状态的备份。

一个subtask的数据如果只来自于上游的一个subtask,此时遇到barrier后直接备份当前状态,并且向jobmanager发送ack响应。如果一个subtask来自上游多个subtask,因为上有subtask的barrier到达有早有晚,上游最早的barrier到达之后,收到其他上游数据后被缓存到内存中,不会进行处理,直到上游最晚的barrier到达后,这个subtask会进行一次状态备份,并且向jobmanager发送ack响应。简单说就是多个上游任务向同一个下游任务传递分界线时,需要在下游任务执行"barrier对齐"操作,也就是需要等到所有并行分区的barrier都到齐,才可以开始状态的保存。

jobmanager 收到所有的ack响应后。才认为本次checkpoint是完整的,然后给各个subtask发送callBack通知,告诉他们这次checkpoint成功,

当最终的sink端收到了callBack响应后,就会进行commit,比如支持事务的jdbcsink.exactlyOnceSink(),在收到callback后才会进行commit

上述流程就是flink中 barrier对齐的checkpoint算法

相关推荐
最初的↘那颗心几秒前
Spark Job 调度机制拆解:从 Action 算子到 Task 执行
大数据·spark·分布式计算
wuyaolong00718 分钟前
PostgreSQL 中进行数据导入和导出
大数据·数据库·postgresql
balmtv31 分钟前
Claude技术架构深度拆解:从宪法AI到混合推理智能体的演进之路
大数据·人工智能·架构
Lab_AI1 小时前
电子实验记录本(ELN)助力熙华药业核心竞争力提升
大数据·人工智能·实验室管理·eln·药物研发·ai制药·电子实验记录本
hg01182 小时前
2026年非洲能源大会在南非开普敦开幕
大数据·能源
Hello.Reader2 小时前
Flink Task Lifecycle 一篇讲透 StreamTask 与 Operator 生命周期
java·大数据·flink
AC赳赳老秦2 小时前
智能协同新纪元:DeepSeek驱动的跨岗位、跨工具多智能体实操体系展望(2026)
大数据·运维·人工智能·深度学习·机器学习·ai-native·deepseek
blackorbird3 小时前
Palantir的战争AI:藏在美军Maven系统里的Claude大模型
java·大数据·人工智能·maven
wanhengidc3 小时前
服务器硬盘都有哪些功能
大数据·运维·服务器·数据库·科技
zy11933 小时前
AI排名优化公司 - 电商大促季如何通过AI可见率实现弯道超车
大数据·人工智能