Spark任务优化分析

一、背景

首先需要掌握 Spark DAG、stage、task的相关概念

Spark的job、stage和task的机制论述 - 知乎

task数量和rdd 分区数相关

二、任务慢的原因分析

找到运行时间比较长的stage

再进去看里面的task

可以看到某个task 读取的数据量明显比其他task 较大。

如果是sql 任务进入到 SQL 页面看到 对应的执行卡在哪里,然后分析,如下图是hash id、actor_name,可以看到是group by 数据有倾斜。

group by 数据倾斜问题,可以参考hive group by 数据倾斜问题同样处理思路。

https://zhugezifang.blog.csdn.net/article/details/127447167

相关推荐
半桶水专家23 分钟前
如何安装部署kafka
分布式·kafka
檀越剑指大厂37 分钟前
【Elasticsearch系列十九】评分机制详解
大数据·elasticsearch·搜索引擎
武子康39 分钟前
大数据-141 - ClickHouse 集群 副本和分片 Zk 的配置 Replicated MergeTree原理详解
java·大数据·clickhouse·flink·spark·scala
Hello.Reader1 小时前
深入解析 Apache Doris架构、应用场景与最佳实践
大数据·架构·数据分析·apache
npk1919541 小时前
celery 结合 rabbitmq 使用时,celery 消费者执行时间太久发送 ack 消息失败
分布式·python·celery
祈心无尘1 小时前
zookeeper向管控平台上报状态
分布式·zookeeper·云原生
星辰@Sea1 小时前
使用ZooKeeper作为定时任务注册中心
分布式·zookeeper·云原生
极客先躯1 小时前
高级java每日一道面试题-2024年9月15日-架构篇[分布式篇]-如何在分布式系统中实现事务?
java·数据库·分布式·面试·架构·事务·分布式篇
wangye114222 小时前
大舍传媒:尼日利亚传统新闻媒体宣传助力新兴行业蓬勃发展
大数据·人工智能
PGCCC3 小时前
【PGCCC】使用 Postgres 进行数据分析的窗口函数
大数据·机器学习·数据分析