spark性能调优 | 默认并行度

Spark Sql默认并行度

看官网,默认并行度200
https://spark.apache.org/docs/2.4.5/sql-performance-tuning.html#other-configuration-options


优化

在数仓中 task最好是cpu的两倍或者3倍(最好是倍数,不要使基数)
拓展

scala 复制代码
在本地 task需要自己设置,cpu就是local[x]   x就代表cpu数
在yarn --num-executors 2 --executor-cores 2相乘就代表你的cpu个数

根据提交命令

csharp 复制代码
spark-submit \
--master yarn \
--deploy-mode client \
--driver-memory 1g \
--num-executors 2 \
--executor-cores 2 \
--executor-memory 2g \
--queue spark \
--class com.donglin.sparksqltuning.PartitionTuning spark-sql-tuning-1.0-SNAPSHOT-jar-with-dependencies.jar 

去向yarn申请的executor vcore资源个数为4个(num-executors*executor-cores),如果不修改spark sql分区个数,那么就会像上图所展示存在cpu空转的情况。这个时候需要合理控制shuffle分区个数。如果想要让任务运行的最快当然是一个task对应一个vcore,但是数仓一般不会这样设置,为了合理利用资源,一般会将分区(也就是task)设置成vcore的2倍到3倍。

可以看出,时间快了不少!(这个需要多次调试,找出最优

相关推荐
金融小师妹19 分钟前
基于AI航运与能源数据模型的极端收缩分析:霍尔木兹海峡从2000万桶到130万桶的结构性断层
大数据·深度学习·svn·能源
ws20190720 分钟前
花城聚智:2026广州新能源汽车技术与热管理展为何成产业升级关键节点?
大数据·人工智能·科技·物联网·汽车
智慧化智能化数字化方案31 分钟前
架构进阶——解读数据中台与业务中台架构设计方案【附全文阅读】
大数据·微服务·架构·数据中台·业务中台架构设计
码云数智-园园31 分钟前
PHP 8 JIT 编译器:解锁 CPU 密集型任务的性能潜能
大数据
huohuopro33 分钟前
HBase 伪分布式环境安装指南
数据库·分布式·hbase
数据皮皮侠1 小时前
1095 《中国城市统计年鉴》面板数据整理
大数据·数据库·人工智能·算法·制造
cd_949217211 小时前
可信数字身份筑牢安全底座,护航“十五五”智慧医疗新生态
大数据·人工智能·物联网
一只大袋鼠1 小时前
高并发系统架构优化(下):突破带宽瓶颈,迈向分布式集群
分布式·系统架构
路小雨~1 小时前
RabbitMQ 全面学习资料
分布式·学习·rabbitmq
云境天合小科普1 小时前
罐区防爆气象站:依据气象数据,优化罐区生产运营策略
大数据