Flink流式数据倾斜

1. 流式数据倾斜

流式处理的数据倾斜和 Spark 的离线或者微批处理都是某一个 SubTask 数据过多这种数据不均匀导致的,但是因为流式处理的特性其中又有些许不同

2. 如何解决

2.1 窗口有界流倾斜

窗口操作类似Spark的微批处理,直接两阶段聚合的方式来解决就可以

sql 复制代码
select date,
       type,
       sum(pv) as pv
from(
  select
        date,
        type,
        sum(count) as pv
  from table
        group by
        date,
        type,
        floor(rand()*100) --随机打散成100份 
    )
    group by 
    date,
    type;

2.2 数据本身不均匀

KeyBy 前数据已经不均匀了,可能是Topic 每个分区的数据不一致(较为少见),或者上游task处理以后导致的数据不均匀,导致下游operate chains的某个task压力很大

这种可以加一个随机数 redistributiing 一下之类打散

2.3 keyby类

加盐

开启minibatch 和 global,牺牲时效性,减少输出数据量

相关推荐
薛定猫AI1 分钟前
【技术干货】基于 NVIDIA API Catalog 与 Kilo CLI 搭建多模型 AI Coding 工作流(附 Python 实战代码)
大数据·人工智能·python
yhdata3 分钟前
OT安全工具软件发展提速:2032年市场规模锁定27.66亿元,赛道潜力加速释放
大数据·网络·人工智能·安全
datablau国产数据库建模工具10 分钟前
【无标题】
大数据·数据挖掘·spark
黎阳之光11 分钟前
【黎阳之光:AI+视频孪生赋能,筑牢城市生命线安全屏障 】
大数据·人工智能·安全·智慧城市·数字孪生
D愿你归来仍是少年11 分钟前
Apache Flink 算子(Operator)深度解析
大数据·flink·apache
岁岁种桃花儿18 分钟前
Flink从入门到上天系列第二十一篇:Flink当中的检查点配置
大数据·flink
盛世宏博北京19 分钟前
6. 物联网环境监测新标杆:POE供电以太网温湿度变送器技术详解
大数据·运维·网络·以太网·poe·温湿度变送器
yhdata24 分钟前
MTP型光纤连接器发展势头强劲,2032年市场规模锁定276.2亿元新高度
大数据·人工智能
AI4Traffic25 分钟前
深度学习中的对数似然损失函数
大数据·人工智能·深度学习
rainbow72424429 分钟前
如何科学选型:AI人才技术水平评估的多元方法对比与深度分析
大数据·人工智能