【Spark】配置参数关系-重要

并行度数量

并行度指所有Executor可以同时执行的Task数,

每个Executor中的一个Core(线程,虚拟核数)同时只能执行一个Task,

所以 最大并行度 = Executor数量 * 每个Executor的Core数;

eg:资源配置10个Executor节点,每个节点2个Core,那么同一时间可以并行计算的task数为20,

如果RDD有100个分区,那么需要5轮计算完毕,

如果RDD有2个分区,那么计算时只使用2个Core,其余18个Core空转,浪费资源,

所以Spark调优中会通过增大RDD分区数,增大任务并行度来提高效率。

相关推荐
jakeswang26 分钟前
细说分布式ID
分布式
计算机毕业设计木哥2 小时前
计算机毕设选题:基于Python+Django的B站数据分析系统的设计与实现【源码+文档+调试】
java·开发语言·后端·python·spark·django·课程设计
失散132 小时前
分布式专题——1.2 Redis7核心数据结构
java·数据结构·redis·分布式·架构
A小弈同学2 小时前
新规则,新游戏:AI时代下的战略重构与商业实践
大数据·人工智能·重构·降本增效·电子合同
王中阳Go2 小时前
头一次见问这么多kafka的问题
分布式·kafka
字节跳动数据平台3 小时前
一客一策:Data Agent 如何重构大模型时代的智能营销?
大数据·agent
boonya4 小时前
Kafka核心原理与常见面试问题解析
分布式·面试·kafka
用户Taobaoapi20144 小时前
京东图片搜索相似商品API开发指南
大数据·数据挖掘·数据分析
镭眸4 小时前
因泰立科技:用激光雷达重塑智能工厂物流生态
大数据·人工智能·科技
KIDAKN5 小时前
RabbitMQ 重试机制 和 TTL
分布式·rabbitmq