Spark提交任务的资源配置和优化

Spark 提交任务时主要可调的资源配置参数包括 Driver 资源(内存、CPU)、Executor 资源(数量、内存、CPU)以及 集群管理相关参数。配置和优化时一般结合集群硬件资源、数据规模、作业类型和作业复杂度(SQL / 机器学习) 来综合设置。

下面是提交过程参数配置实例:

shell 复制代码
spark-submit --driver-memory 4g \ # 指定Driver进程的内存大小(堆内存),影响不大。
--num-executors 15 # Executor 的总数量,Standalone/K8s 可直接设定;Yarn默认会动态分配。
--executor-memory 8g \ # 指定每个Executor的内存大小(堆内存),一般都是Execution会出现OOM,因为Storage会落盘。
--executor-cores 3 \ # 指定每个Executor核心数(真正并行数),4核心建议设成3。
--queue root.default \ # 设置Yarn的资源队列。
--conf spark.yarn.executor.memoryOverhead=2048 \ # 设置堆外内存大小,默认executor-memory的10%。
--conf spark.core.connection.ack.wait.timeout=300 # 设置通讯等待超时时间。
# 例如集群有15台机器,每台2个CPU核心,则指定15个Executor每个的核心为2。总并行度 = num-executors × executor-cores,尽量大于等于总分区数

资源优化的策略包括:

  1. 内存分配:
    executor-memory ≈ 节点内存 ÷ 每节点 Executor 数量 - 预留空间;
    num-executors × executor-cores 不要超过节点总核数。
  2. 并行度:一般建议 总 cores ≈ 分区数 或者稍大一些。SQL 场景调节 spark.sql.shuffle.partitions(默认 200 通常过大/过小都不好)。
  3. 动态分配:在资源紧张的环境或多租户模式下建议开启,可避免资源浪费。
相关推荐
KaMeidebaby13 小时前
卡梅德生物技术快报|噬菌体文库构建实验优化及偶联体系实验数据分析
大数据·人工智能·架构·spark·新浪微博
鸿乃江边鸟14 小时前
Spark中怎么做Spark canonicalize归一化
大数据·分布式·spark
ACP广源盛139246256732 天前
GSV2221 显示转换芯片@ACP#赋能 RTX Spark 端侧 AI 设备,构建多屏全模态视觉交互新生态
大数据·人工智能·嵌入式硬件·gpt·spark·电脑·音视频
ACP广源盛139246256733 天前
GSV2231 三屏显示扩展芯片@ACP#RTX Spark AI 终端多屏协作专属解决方案
大数据·人工智能·分布式·信息可视化·spark·电脑·音视频
KaMeidebaby4 天前
卡梅德生物技术快报|蛋白定制:ACE 抑制肽原辅料工艺全参数|适配蛋白定制的提取 & 酶解标准化实操手册
大数据·人工智能·架构·spark·新浪微博
阿里云大数据AI技术5 天前
EMR Serverless Spark 数据湖上新能力:一条 SQL 实现标量向量混合检索
人工智能·sql·spark
暴躁小师兄数据学院6 天前
【AI大数据工程师特训笔记】第16讲:大数据环境安装
大数据·hadoop·笔记·flink·spark·database
IDIOT___IDIOT7 天前
Docker 集群运行 Spark 的一些记录
docker·容器·spark
工业互联网专业8 天前
基于Spark的共享单车数据存储系统的设计与实现_flask+spider
spark·flask·毕业设计·源码·课程设计·spider·共享单车