【Spark】配置参数关系-重要

并行度数量

并行度指所有Executor可以同时执行的Task数,

每个Executor中的一个Core(线程,虚拟核数)同时只能执行一个Task,

所以 最大并行度 = Executor数量 * 每个Executor的Core数;

eg:资源配置10个Executor节点,每个节点2个Core,那么同一时间可以并行计算的task数为20,

如果RDD有100个分区,那么需要5轮计算完毕,

如果RDD有2个分区,那么计算时只使用2个Core,其余18个Core空转,浪费资源,

所以Spark调优中会通过增大RDD分区数,增大任务并行度来提高效率。

相关推荐
程序员泠零澪回家种桔子4 小时前
分布式事务核心解析与实战方案
分布式
Dxy12393102165 小时前
Elasticsearch 索引与映射:为你的数据打造一个“智能仓库”
大数据·elasticsearch·搜索引擎
凯子坚持 c5 小时前
CANN 生态中的分布式训练利器:深入 `collective-ops` 项目实现高效多卡协同
分布式
岁岁种桃花儿5 小时前
Kafka从入门到上天系列第一篇:kafka的安装和启动
大数据·中间件·kafka
Apache Flink6 小时前
Apache Flink Agents 0.2.0 发布公告
大数据·flink·apache
永霖光电_UVLED6 小时前
打造更优异的 UVB 激光器
大数据·制造·量子计算
m0_466525296 小时前
绿盟科技风云卫AI安全能力平台成果重磅发布
大数据·数据库·人工智能·安全
晟诺数字人6 小时前
2026年海外直播变革:数字人如何改变游戏规则
大数据·人工智能·产品运营
惊讶的猫6 小时前
rabbitmq实践小案例
分布式·rabbitmq
vx_biyesheji00016 小时前
豆瓣电影推荐系统 | Python Django 协同过滤 Echarts可视化 深度学习 大数据 毕业设计源码
大数据·爬虫·python·深度学习·django·毕业设计·echarts