Spark资源规划-资源上线评估

1、总体原则

以单台服务器 128G 内存,32 线程为例。

先设定单个 Executor 核数,根据 Yarn 配置得出每个节点最多的 Executor 数量,每个节点的 yarn 内存/每个节点数量=单个节点的数量

总的 executor 数=单节点数量*节点数。

2、具体提交参数

1)executor-cores

每个 executor 的最大核数。根据经验实践,设定在 3~6 之间比较合理。

2)num-executors

该参数值=每个节点的 executor 数 * work 节点数

每个 node 的 executor 数 = 单节点 yarn 总核数 / 每个 executor 的最大 cpu 核数考虑到系统基础服务和 HDFS 等组件的余量,yarn.nodemanager.resource.cpu-vcores 配 置为: 28,参数 executor-cores 的值为:4,那么每个 node 的 executor 数 = 28/4 = 7,假设集

群节点为 10,那么 num-executors = 7 * 10 = 70

3)executor-memory

该参数值=yarn-nodemanager.resource.memory-mb / 每个节点的 executor 数量

如果 yarn 的参数配置为 100G,那么每个 Executor 大概就是 100G/7≈14G, 同时要注意yarn 配置中每个容器允许的最大内存是否匹配。

Spark的提交参数

csharp 复制代码
		spark-submit常用参数
			--master 指定任务提交到哪个资源调度器中
			--executor-memory 指定每个executor的内存大小
			--executor-cores 指定每个executor的cpu核数
			--total-executor-cores 指定所有executor的cpu总核数[仅限于standalone模式使用]
			--num-executors 指定任务需要的executor个数[仅限于yarn模式使用]
			--queue 指定任务提交到哪个资源队列中[仅限于yarn模式使用]
			--deploy-mode 指定任务的部署模式[client/cluster]
			--driver-memory 指定driver的内存大小
			--class 指定待运行的带有main方法object的全类名
相关推荐
飞火流星020272 分钟前
Hadoop3.1.1集群+Hive3.1.0环境安装
大数据·hadoop·分布式·hadoop3.1.1集群安装·hive3.1.0安装
金井PRATHAMA5 分钟前
内容与形式(二)内容:基于系统科学与信息科学双重视角的层级化定义
大数据·人工智能·自然语言处理·知识图谱
xiangxiongfly91520 分钟前
uni-app 组件总结
前端·javascript·uni-app
团象科技33 分钟前
跨境合规压力加剧,海外云风控筑牢 AI 出海安全底座
大数据·人工智能
七夜zippoe34 分钟前
OpenClaw 上下文管理:Token 优化策略
大数据·人工智能·深度学习·token·openclaw
Cobyte37 分钟前
11.响应式系统演进:深入剖析 computed 实现原理与性能优化实践(Vue3.3)
前端·javascript·vue.js
ZC跨境爬虫37 分钟前
跟着MDN学HTML_day_46:(HTMLCollection与NodeList)
前端·javascript·ui·html·音视频
傻啦嘿哟42 分钟前
用办公Agent接管Excel苦力活:跨表匹配、格式清洗、自动图表生成
大数据
广州创科水利1 小时前
广州创科:以硬核科技与全栈能力,守护边坡安全监测防线
大数据·网络·人工智能
Elastic 中国社区官方博客1 小时前
Elasticsearch ES|QL “读取时模式”:你的未映射字段一直都在那里
大数据·数据库·sql·elasticsearch·搜索引擎·全文检索