- 精准一次怎么保证?可以设置为以下2个
- 对齐
- 当有一个barrier比较快时,输入缓冲区阻塞,当另外一个barrier到来时,才进行备份,所以数据不会重复。
- 优点:不会造成数据重复
- 缺点:会造成数据积压,OOM
- 不对齐
- 当有一个barrier到来时,直接将barrier置到最后,然后将所有缓冲区的数据和状态进行备份,然后将kafka提交,然后将慢的barrier也置到最后,将所有缓冲区的数据和状态进行备份,然后将kafka提交。
- 优点:加快了ck
- 缺点:由于备份了大量数据,会造成IO压力大,磁盘存储压力大
- 对齐
- 至少一次怎么保证?
- 对齐
- 当有一个barrier比较快时,输入缓冲区不阻塞,直接向下游流动,而barrier会等待另外一个barrier,当此次ck备份成功后,JM注入新的barrier,然后到一半的时候,备份失败了,kafka回滚,从HDFS中恢复上次的ck,恢复kafka的offset,由于不阻塞,所以会重新从kafka中拉取到重复的数据进行计算,就造成了数据的重复,就是至少一次语义。
- 优点:不阻塞,不会造成数据积压,OOM
- 缺点,会造成数据重复
flink-对齐和不对齐,精准一次和至少一次
青云游子2023-08-14 9:24
相关推荐
智能化咨询1 小时前
Flink受管状态自定义序列化的可演进设计与未来趋势yumgpkpm2 小时前
CMP (类ClouderaCDP7.3(404次编译) )华为鲲鹏Aarch64(ARM)信创环境 查询2100w行 hive 查询策略wudl55665 小时前
Flink 1.20 flink-config.yml 配置详解华东数交5 小时前
企业与国有数据资产:入表全流程管理及资产化闭环理论解析B站_计算机毕业设计之家11 小时前
计算机毕业设计:Python农业数据可视化分析系统 气象数据 农业生产 粮食数据 播种数据 爬虫 Django框架 天气数据 降水量(源码+文档)✅Apache Flink12 小时前
Flink Agents 0.1.0 发布公告潘达斯奈基~14 小时前
在使用spark的applyInPandas方法过程中,遇到类型冲突问题如何解决火星资讯15 小时前
腾多多数字零售模式:从成本转嫁到全生态共赢的破局实践望获linux16 小时前
【实时Linux实战系列】实时 Linux 的自动化基准测试框架金宗汉16 小时前
《宇宙递归拓扑学:基于自指性与拓扑流形的无限逼近模型》