Flink一致性实现原理

Apache Flink 的一致性原理核心位于检查点机制(Checkpointing)和两阶段提交协议(Two-Phase Commit) 它贯穿周期性保存分散式快照状态,在故障发生时将任务恢复至一致的状态,实现了从数据源到下游系统的「精确一次」(Exactly-Once)处理语义。

Flink一致性实现的关键原理

全局快照机制(Checkpointing)

  • 原理:基于 Chandy-Lamport 算法,Flink 在数据流中插入特殊的「Barrier」(屏障)来标记检查点。
  • 过程:Barrier从数据源传播到整个作业图(Job Graph)。当侵犯子收到所有输入流的Barrier后,保留当前状态(State)异步写入持久化存储(如HDFS),这就是JobManager确认。
  • 一致性保证:只有当所有攻击子都成功完成快照,该检查点才算完成。如果故障发生,系统会重置到最后一次成功的检查点,并重新处理数据后续。

端到端 Exactly-Once 一致性(两阶段提交)

  • 原理:为了保证 Flink 内部状态一致,而且输出到外部系统(如 Kafka)的结果也一致,Flink 使用了两阶段提交。
  • 步骤:
    预提交(Pre-commit):当Checkpoint Barrier到达Sink算子时,Sink启动事务将数据写入外部系统,但暂不提交。
    提交(Commit):JobManager确认所有算子Checkpoint成功后,通知Sink执行实际的提交操作。
  • 故障恢复:若在提交前出现故障,事务会自动回滚,确保数据不重复、不丢失。
    数据一致性级别
  • At-most-once:最多一次,故障时无法恢复,数据可能丢失。
  • At-least-once:至少一次,故障恢复时数据可能重复处理,但不会丢失(常规检查点)。
  • Exactly-once:精确一次,故障时恢复状态与未发生故障时完全一致。

总结来说,Flink的一致性靠Checkpoint恢复状态,靠Two-Phase Commit同步状态与外部输出

相关推荐
ApacheSeaTunnel20 分钟前
实战演示 | 基于 Apache SeaTunnel 与 Apache DolphinScheduler 实现 MySQL 到 Doris 离线定时增量同步
大数据·mysql·开源·doris·数据集成·seatunnel·数据同步
weixin_397574091 小时前
PDF复杂表格的1:1还原引擎:跨页表格自动拼接技术实战
大数据·人工智能·pdf
极光代码工作室1 小时前
基于数据仓库的电商数据分析平台
大数据·hadoop·python·spark·数据可视化
秋名山码民2 小时前
Graph RAG 深度解析:从向量检索到知识推理的技术演进
大数据·人工智能·rag
m0_380167142 小时前
面向开发者的Top10加密货币数据API(2026年最新)
大数据·人工智能·区块链
yyxx4121232 小时前
上海企业如何选择专业的钉钉服务商
java·大数据·人工智能·钉钉
QZ166560951593 小时前
动态感知·全覆盖管控·符合司法要求:通用行业知形数据库风险监测合规落地方案
大数据·人工智能
GEO优化小助手3 小时前
2026临沂GEO优化公司实测解析:3家本土机构适配性参考
大数据·人工智能·python
OceanBase数据库官方博客4 小时前
OceanBase + Flink 数据集成(第二部分):通过 JDBC 协议实现实时数据同步
大数据·flink·oceanbase
跨境摸鱼4 小时前
年中政策切换窗口临近跨境卖家如何安排新品测试与库存回收
大数据·人工智能·跨境电商·跨境·营销策略