【Spark】配置参数关系-重要

并行度数量

并行度指所有Executor可以同时执行的Task数,

每个Executor中的一个Core(线程,虚拟核数)同时只能执行一个Task,

所以 最大并行度 = Executor数量 * 每个Executor的Core数;

eg:资源配置10个Executor节点,每个节点2个Core,那么同一时间可以并行计算的task数为20,

如果RDD有100个分区,那么需要5轮计算完毕,

如果RDD有2个分区,那么计算时只使用2个Core,其余18个Core空转,浪费资源,

所以Spark调优中会通过增大RDD分区数,增大任务并行度来提高效率。

相关推荐
yx9o4 分钟前
Kafka 源码 KRaft 模式本地运行
分布式·kafka
W Y8 分钟前
【架构-37】Spark和Flink
架构·flink·spark
ycsdn1010 分钟前
Caused by: org.apache.flink.api.common.io.ParseException: Row too short:
大数据·flink
Gemini199529 分钟前
分布式和微服务的区别
分布式·微服务·架构
G丶AEOM29 分钟前
分布式——BASE理论
java·分布式·八股
DolphinScheduler社区2 小时前
Apache DolphinScheduler + OceanBase,搭建分布式大数据调度平台的实践
大数据
时差9532 小时前
MapReduce 的 Shuffle 过程
大数据·mapreduce
kakwooi4 小时前
Hadoop---MapReduce(3)
大数据·hadoop·mapreduce
数新网络4 小时前
《深入浅出Apache Spark》系列②:Spark SQL原理精髓全解析
大数据·sql·spark
P.H. Infinity6 小时前
【RabbitMQ】03-交换机
分布式·rabbitmq