【Spark】配置参数关系-重要

并行度数量

并行度指所有Executor可以同时执行的Task数,

每个Executor中的一个Core(线程,虚拟核数)同时只能执行一个Task,

所以 最大并行度 = Executor数量 * 每个Executor的Core数;

eg:资源配置10个Executor节点,每个节点2个Core,那么同一时间可以并行计算的task数为20,

如果RDD有100个分区,那么需要5轮计算完毕,

如果RDD有2个分区,那么计算时只使用2个Core,其余18个Core空转,浪费资源,

所以Spark调优中会通过增大RDD分区数,增大任务并行度来提高效率。

相关推荐
SirLancelot113 小时前
StarRocks-基本介绍(一)基本概念、特点、适用场景
大数据·数据库·数据仓库·sql·数据分析·database·数据库架构
阑梦清川13 小时前
es的docker部署和docker相关的可可视化面板工具介绍
大数据·elasticsearch·docker
Mr_LiYYD14 小时前
elasticsearch数据迁移
大数据·elasticsearch·搜索引擎
dalianwawatou15 小时前
GitLab 代码基础操作清单
大数据·elasticsearch·gitlab
Costrict15 小时前
解锁新阵地!CoStrict 现已支持 JetBrains 系列 IDE
大数据·ide·人工智能·深度学习·自然语言处理·ai编程·visual studio
爬山算法15 小时前
Redis(69)Redis分布式锁的优点和缺点是什么?
数据库·redis·分布式
阿里云大数据AI技术16 小时前
云栖实录|阿里云 Milvus:AI 时代的专业级向量数据库
大数据·人工智能·搜索引擎
随心............16 小时前
在开发过程中遇到问题如何解决,以及两个经典问题
hive·hadoop·spark
vivo互联网技术16 小时前
vivo HDFS EC 大规模落地实践
大数据·hdfs
QYResearch17 小时前
2025-2031年我国葡萄糖年产量和市场规模
大数据