【Spark】配置参数关系-重要

并行度数量

并行度指所有Executor可以同时执行的Task数,

每个Executor中的一个Core(线程,虚拟核数)同时只能执行一个Task,

所以 最大并行度 = Executor数量 * 每个Executor的Core数;

eg:资源配置10个Executor节点,每个节点2个Core,那么同一时间可以并行计算的task数为20,

如果RDD有100个分区,那么需要5轮计算完毕,

如果RDD有2个分区,那么计算时只使用2个Core,其余18个Core空转,浪费资源,

所以Spark调优中会通过增大RDD分区数,增大任务并行度来提高效率。

相关推荐
新诺韦尔API17 小时前
手机在网时长查询接口对接全流程详解
大数据·网络·api
无心水18 小时前
【分布式利器:分布式ID】6、中间件方案:Redis/ZooKeeper分布式ID实现
redis·分布式·zookeeper·中间件·分库分表·分布式id·分布式利器
LplLpl111 天前
AI 算法竞赛通关指南:基于深度学习的图像分类模型优化实战
大数据·人工智能·机器学习
庄小焱1 天前
大数据治理域——数据资产管理示例
大数据·数据治理·大数据治理·数据治理实践
bailaoshi6661 天前
reactor-kafka无traceId
分布式·kafka
O***p6041 天前
Java在分布式中的Archaius
java·开发语言·分布式
WordPress学习笔记1 天前
专业建外贸网站公司推荐
大数据·前端·人工智能
Julian.zhou1 天前
Anthropic破解长程任务难题:长期运行智能体的高效控制机制
大数据·人工智能
白日做梦Q1 天前
Navicat for MySQL 详细使用指南:命令行操作与界面操作双视角全解析
大数据·mysql·adb·数据库开发
AI_56781 天前
AI知识库如何重塑服务体验
大数据·人工智能