flink-对齐和不对齐,精准一次和至少一次

  1. 精准一次怎么保证?可以设置为以下2个
    1. 对齐
      1. 当有一个barrier比较快时,输入缓冲区阻塞,当另外一个barrier到来时,才进行备份,所以数据不会重复。
      2. 优点:不会造成数据重复
      3. 缺点:会造成数据积压,OOM
    2. 不对齐
      1. 当有一个barrier到来时,直接将barrier置到最后,然后将所有缓冲区的数据和状态进行备份,然后将kafka提交,然后将慢的barrier也置到最后,将所有缓冲区的数据和状态进行备份,然后将kafka提交。
      2. 优点:加快了ck
      3. 缺点:由于备份了大量数据,会造成IO压力大,磁盘存储压力大
  2. 至少一次怎么保证?
    1. 对齐
    2. 当有一个barrier比较快时,输入缓冲区不阻塞,直接向下游流动,而barrier会等待另外一个barrier,当此次ck备份成功后,JM注入新的barrier,然后到一半的时候,备份失败了,kafka回滚,从HDFS中恢复上次的ck,恢复kafka的offset,由于不阻塞,所以会重新从kafka中拉取到重复的数据进行计算,就造成了数据的重复,就是至少一次语义。
    3. 优点:不阻塞,不会造成数据积压,OOM
    4. 缺点,会造成数据重复
相关推荐
狼头长啸李树身2 分钟前
眼儿媚·秋雨绵绵窗暗暗
大数据·网络·服务发现·媒体
Json_1817901448038 分钟前
商品详情接口使用方法和对接流程如下
大数据·json
Data 3171 小时前
Hive数仓操作(十七)
大数据·数据库·数据仓库·hive·hadoop
bubble小拾5 小时前
ElasticSearch高级功能详解与读写性能调优
大数据·elasticsearch·搜索引擎
ZOHO项目管理软件5 小时前
EDM平台大比拼 用户体验与营销效果双重测评
大数据
HyperAI超神经6 小时前
Meta 首个多模态大模型一键启动!首个多针刺绣数据集上线,含超 30k 张图片
大数据·人工智能·深度学习·机器学习·语言模型·大模型·数据集
Hello.Reader8 小时前
TopK算法在大数据重复数据分析中的应用与挑战
大数据·算法·数据分析
数据龙傲天8 小时前
1688商品API接口:电商数据自动化的新引擎
java·大数据·sql·mysql
Elastic 中国社区官方博客8 小时前
Elasticsearch:使用 LLM 实现传统搜索自动化
大数据·人工智能·elasticsearch·搜索引擎·ai·自动化·全文检索
Jason不在家10 小时前
Flink 本地 idea 调试开启 WebUI
大数据·flink·intellij-idea