Spark数据倾斜_产生原因及定位处理办法_生产环境

在最近的项目中,历史和实时数据进行关联平滑时出现了数据倾斜,产生了笛卡尔积,具体现象如下:运行内存175GB,核数64,运行代码时,查看SparkUI界面的active jobs ,数据输入是1G,成功的stage为0,一直是0/120,由此,通过排查,的确发生笛卡尔积

Spark数据倾斜产生的原因及解决办法:

Spark数据倾斜主要在shuffle过程中由于不同的key对应的数据量不同导致,具体表现是不同的task处理的数据量不同。在Spark作业中,如果存在可能导致数据倾斜的key,可以考虑将这个key进行过滤,滤除可能导致数据倾斜的数据,从而在Spark作业中避免数据倾斜。另外,提高shuffle过程中的reduce端并行度,即增加reduce端的task数量,可以使得每个task分配到的数据量减少,从而缓解数据倾斜问题。

可参考文章:

Spark如何处理数据倾斜-CSDN博客

相关推荐
Ace_31750887766 分钟前
京东关键字搜索接口逆向:从动态签名破解到分布式请求调度
分布式·python
❀͜͡傀儡师9 分钟前
使用DelayQueue 分布式延时队列,干掉定时任务!
java·分布式·delayqueue·spingboot
失散1314 分钟前
分布式专题——55 ElasticSearch性能调优最佳实践
java·分布式·elasticsearch·架构
yachuan_qiao31 分钟前
专业的建筑设备监控管理系统选哪家
大数据·运维·python
TDengine (老段)1 小时前
TDengine 字符串函数 LIKE_IN_SET 用户手册
大数据·数据库·物联网·制造·时序数据库·tdengine·涛思数据
easy_coder2 小时前
MinIO:云原生时代的分布式对象存储从入门到精通
分布式·云原生
科技测评-阿博2 小时前
从经验到算法:智能获客系统如何重构ToB销售效率
大数据
lisw052 小时前
计算生物学的学科体系!
大数据·人工智能·机器学习
SeaTunnel2 小时前
结项报告完整版:Apache SeaTunnel 支持 Flink 引擎 Schema Evolution 功能
java·大数据·flink·开源·seatunnel
神的孩子都在歌唱3 小时前
es开源小工具 -- 分析器功能
大数据·elasticsearch·开源