Flink和Kafka连接时的精确一次保证

端到端的精确一次性保证

既然是端到端的exactly-once,我们可以从三个组件的角度来进行分析:

(1)Flink内部

Flink内部可以通过检查点机制保证状态和处理结果的exactly-once语义。

(2)输入端

输入数据源端的Kafka可以对数据进行持久化保存,并可以重置偏移量(offset)。所以我们可以在Source任务(FlinkKafkaConsumer)中将当前读取的偏移量保存为算子状态,写入到检查点中;当发生故障时,从检查点中读取恢复状态,并由连接器FlinkKafkaConsumer向Kafka重新提交偏移量,就可以重新消费数据、保证结果的一致性了。

(3)输出端

输出端保证exactly-once的最佳实现,当然就是两阶段提交(2PC)。作为与Flink天生一对的Kafka,自然需要用最强有力的一致性保证来证明自己。

也就是说,我们写入Kafka的过程实际上是一个两段式的提交:处理完毕得到结果,写入Kafka时是基于事务的"预提交";等到检查点保存完毕,才会提交事务进行"正式提交"。如果中间出现故障,事务进行回滚,预提交就会被放弃;恢复状态之后,也只能恢复所有已经确认提交的操作。

整体流程

相关推荐
说私域2 小时前
定制开发AI智能名片S2B2C预约服务小程序的定制开发与优势分析
大数据·人工智能·小程序
西岭千秋雪_2 小时前
Kafka客户端整合
java·spring boot·分布式·kafka·linq
武子康2 小时前
大数据-155 Apache Druid 存储与查询架构实战:Segment/Chunk/Roll-up/Bitmap 一文讲清
大数据·后端·nosql
360智汇云3 小时前
Kafka 消费积压影响写入?试试 Pulsar
分布式·kafka
Hello.Reader4 小时前
Streaming ELT with Flink CDC · OceanBase Sink
adb·flink·oceanbase
ITVV4 小时前
计算引擎 Flink 1.19.3
大数据·flink
HillVue4 小时前
重估百度,也是在重估 AI 的未来
大数据·人工智能·sqlite
zxsz_com_cn6 小时前
设备健康管理诊断报告生成:工业智能化的“决策引擎”与效率革命
大数据
FPGA小迷弟10 小时前
ChatGPT回答用AI怎么怎么赚钱
大数据·人工智能
AllData公司负责人11 小时前
实时开发平台(Streampark)--Flink SQL功能演示
大数据·前端·架构·flink·开源