Flink流式数据倾斜

1. 流式数据倾斜

流式处理的数据倾斜和 Spark 的离线或者微批处理都是某一个 SubTask 数据过多这种数据不均匀导致的,但是因为流式处理的特性其中又有些许不同

2. 如何解决

2.1 窗口有界流倾斜

窗口操作类似Spark的微批处理,直接两阶段聚合的方式来解决就可以

sql 复制代码
select date,
       type,
       sum(pv) as pv
from(
  select
        date,
        type,
        sum(count) as pv
  from table
        group by
        date,
        type,
        floor(rand()*100) --随机打散成100份 
    )
    group by 
    date,
    type;

2.2 数据本身不均匀

KeyBy 前数据已经不均匀了,可能是Topic 每个分区的数据不一致(较为少见),或者上游task处理以后导致的数据不均匀,导致下游operate chains的某个task压力很大

这种可以加一个随机数 redistributiing 一下之类打散

2.3 keyby类

加盐

开启minibatch 和 global,牺牲时效性,减少输出数据量

相关推荐
镜舟科技29 分钟前
迈向云原生:理想汽车 OLAP 引擎变革之路
大数据·数据库·云原生
山山而川粤33 分钟前
SSM考研信息查询系统
java·大数据·运维·服务器·开发语言·数据库·考研
rkshangan2 小时前
软考高级:探寻易考科目与高效备考之路
大数据·网络
莹雨潇潇4 小时前
大数据时代的隐私与自由(演讲稿)
大数据
dogplays4 小时前
Doris Streamloader安装教程
大数据
宝哥大数据6 小时前
flink 分组窗口聚合 与 窗口表值函数聚合 的区别
flink
哲讯智能科技11 小时前
智慧能源新篇章:SAP如何赋能光伏行业数字化转型
大数据·人工智能
嘟嘟嘟嘟嘟嘟嘟.13 小时前
MapReduce的工作原理
大数据·mapreduce
汤姆yu14 小时前
基于python大数据的商品数据可视化分析系统
大数据·python·信息可视化·商品数据
好记忆不如烂笔头abc14 小时前
oracle-blob导出,在ob导入失败
大数据·数据库·python