【Spark】配置参数关系-重要

并行度数量

并行度指所有Executor可以同时执行的Task数,

每个Executor中的一个Core(线程,虚拟核数)同时只能执行一个Task,

所以 最大并行度 = Executor数量 * 每个Executor的Core数;

eg:资源配置10个Executor节点,每个节点2个Core,那么同一时间可以并行计算的task数为20,

如果RDD有100个分区,那么需要5轮计算完毕,

如果RDD有2个分区,那么计算时只使用2个Core,其余18个Core空转,浪费资源,

所以Spark调优中会通过增大RDD分区数,增大任务并行度来提高效率。

相关推荐
teak_on_my_way40 分钟前
使用C#写的一个Kafka的使用工具
分布式·kafka
涤生大数据6 小时前
探索Doris:日志分析的新宠,是否能取代老牌ES?
大数据·elasticsearch·doris
阿巴阿巴拉7 小时前
Scala相关知识学习总结4
大数据·scala
码界筑梦坊7 小时前
基于Django的二手交易校园购物系统
大数据·后端·python·信息可视化·django
郭涤生8 小时前
Chapter 10: Batch Processing_《Designing Data-Intensive Application》
笔记·分布式
花和尚_鲁智深8 小时前
数据仓库:规范
大数据
郭涤生10 小时前
微服务系统记录
笔记·分布式·微服务·架构
马达加斯加D10 小时前
MessageQueue --- RabbitMQ可靠传输
分布式·rabbitmq·ruby
小诸葛的博客11 小时前
es基本概念
大数据·elasticsearch·搜索引擎
青云交11 小时前
Java 大视界 -- Java 大数据机器学习模型在金融衍生品定价中的创新方法与实践(166)
java·大数据·金融·数据采集·机器学习模型·java 大数据·金融衍生品定价