Spark数据倾斜_产生原因及定位处理办法_生产环境

在最近的项目中,历史和实时数据进行关联平滑时出现了数据倾斜,产生了笛卡尔积,具体现象如下:运行内存175GB,核数64,运行代码时,查看SparkUI界面的active jobs ,数据输入是1G,成功的stage为0,一直是0/120,由此,通过排查,的确发生笛卡尔积

Spark数据倾斜产生的原因及解决办法:

Spark数据倾斜主要在shuffle过程中由于不同的key对应的数据量不同导致,具体表现是不同的task处理的数据量不同。在Spark作业中,如果存在可能导致数据倾斜的key,可以考虑将这个key进行过滤,滤除可能导致数据倾斜的数据,从而在Spark作业中避免数据倾斜。另外,提高shuffle过程中的reduce端并行度,即增加reduce端的task数量,可以使得每个task分配到的数据量减少,从而缓解数据倾斜问题。

可参考文章:

Spark如何处理数据倾斜-CSDN博客

相关推荐
武子康1 小时前
Java-80 深入浅出 RPC Dubbo 动态服务降级:从雪崩防护到配置中心秒级生效
java·分布式·后端·spring·微服务·rpc·dubbo
数据与人工智能律师4 小时前
数字迷雾中的安全锚点:解码匿名化与假名化的法律边界与商业价值
大数据·网络·人工智能·云计算·区块链
mykyle6 小时前
Elasticsearch-ik分析器
大数据·elasticsearch·jenkins
itLaity6 小时前
基于Kafka实现简单的延时队列
spring boot·分布式·kafka
qq_529835356 小时前
Zookeeper的简单了解
分布式·zookeeper·云原生
weixin_lynhgworld7 小时前
淘宝扭蛋机小程序系统开发:重塑电商互动模式
大数据·小程序
smileNicky7 小时前
RabbitMQ有多少种Exchange?
分布式·rabbitmq
你我约定有三7 小时前
RabbitMQ--消息丢失问题及解决
java·开发语言·分布式·后端·rabbitmq·ruby
Java初学者小白8 小时前
秋招Day19 - 分布式 - 分布式事务
java·分布式
RPA+AI十二工作室9 小时前
影刀RPA_Temu关键词取数_源码解读
大数据·自动化·源码·rpa·影刀