Spark SQL调优实战

1、 新添参数说明

// D river 和Executor内存和CPU资源相关配置

--是否开启executor动态分配,开启时spark.executor.instances不生效

spark.dynamicAllocation.enabled=false

--配置Driver内存

spark.dirver.memory=5g

--driver最大结果大小,设置为0代表不限制,driver在拉取结果时,如果结果超过阈值会报异常

spark.driver.maxResultSize=0

--配置executor内存和cpu

spark.executor.memory=5g

spark.executor.cores=8

--executor额外内存,executor内存包括三个部分,heap、off-heap以及overhead,heap和off-heap用于存储executor上任务的执行结果块以及用作执行内存,overhead作为额外内存用于存储虚拟机的开销

spark.yarn.executor.memoryOverhead=6120

--配置executor实例个数,此种方式是固定资源分配方式

spark.executor.instances=25

--是否开启executor堆外内存,以及堆外内存的的大小

spark.memory.offHeap.enabled=true

spark.memory.offHeap.size=2048mb

--spark内存既可以用于存储也可以用于计算,计算内存和存储内存是软边界,这个参数用于设置存储内存的比例

spark.memory.fraction=0.4

// 序列化器相关配置 ,spark 默认采用 java 序列化器 , 也提供 kryoserializer 的实现 后者的性能是前者的十倍

spark.kryoserializer.buffer.max=2047mb

spark.kryoserializer.buffer=16384kb

//中间结果网络传输压缩,缓解内存和网络传输压力

spark.shuffle.compress=true

spark.rdd.compress=true

//开启spark任务推断,优化分区任务执行时间不均衡问题,避免严重拖后腿任务

spark.speculation=true

spark.speculation.interval=60s

spark.speculation.multiplier=1.3

spark.speculation.quantile=0.99

//网络通信超时和失败重试相关参数,避免网络质量差或不稳定导致的任务失败

spark.network.timeout=300

spark.shuffle.io.maxRetries=30

spark.shuffle.io.retryWait=10s

//spark对分区结果的大小做了2G的限制,超出了就会报too large dataframe异常,这时需要增加shuffle分区,缓解数据倾斜,但是如果数据本身是倾斜了,下面参数治标不治本,默认300

spark.sql.shuffle.partitions=500

//设置自动广播阈值,在大表join小表时可以将小表作为广播变量,存在内存中,提升join的性能

spark.sql.autoBroadcastJoinThreshold=-1

  1. 参数影响
  • 什么时候需要将spark.dynamicAllocation.enable设置为false?

回答:spark默认按照128m来对文件进行分区,如果文件比较大,比如40G,分区多达300多个,采用动态分配策略,可能导致占用太多的集群资源,使得集群崩溃,如下对比图。

图1: 采用动态分配策略,executor实例数高达115个(第116另Driver)

图2:采用静态分配策略,executor实例数固定为25个

  • spark.memory.offHeap.enabled和spark.memory.offHeap.size的影响?

回答:在运行百万级别job_trsf_dim_chl_cust_spark_df任务时,使用默认配置参数,报直接内存不足异常,导致作业运行失败,如下图:

图3: 堆外内存不足导致任务运行失败

添加以上参数后作业运行成功。

  • spark.kryoserializer.buffer大小的调整?

回答:当使用kryoserializer序列化器时,遇到Buffer大小不足,提示require ** but available等信息,需要调大上述参数。

第四、调大spark.sql.shuffle.partitions的目的?

图4: 分区结果超过2G错误

回答:当出现如上图所示错误,很大程度是因为数据发生了倾斜,这时可以调整shuffle的分区,均衡分区中的数据,但如果数据本身是倾斜,只能自定义分区规则重写Spark Partitioner或进行SQL调优。

  • 为什么要避免对大表进行select * 操作?

回答:因为Spark是以Client方式向Yarn提交作业,查询的结果会返回给Driver端,对一个40G的表进行全量查询,会导致Driver端崩溃,导致如下图所示的错误:

图5: Jave堆内存

相关推荐
Elastic 中国社区官方博客4 小时前
DevRel 通讯 — 2026 年 2 月
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·jina
caoz5 小时前
AI的春节档
大数据·人工智能·深度学习·机器学习·计算机视觉
samFuB5 小时前
面板数据-人力资源和社会保障事业发展统计核心指标数据(2000-2024)
大数据
Lalolander6 小时前
工厂手工统计耗时耗力怎么办?
大数据·制造执行系统·工厂管理系统·工厂工艺管理·工厂生产进度管理
小王毕业啦7 小时前
2010-2024年 上市公司-突破性创新和渐进性创新(数据+代码+文献)
大数据·人工智能·数据挖掘·数据分析·数据统计·社科数据·经管数据
Moshow郑锴8 小时前
pgsql常见查询索引优化(等值条件+范围条件)
数据库·sql·mysql
诗词在线8 小时前
孟浩然诗作数字化深度实战:诗词在线的意象挖掘、检索优化与多场景部署
大数据·人工智能·算法
赵谨言8 小时前
基于Python实现地理空间数据批处理技术探讨及实现--以“多规合一“总体规划数据空间叠加分析为例
大数据·开发语言·经验分享·python
天竺鼠不该去劝架8 小时前
RPA 平台选型指南(2026):金智维 vs 来也RPA vs 艺赛旗 vs 阿里云 RPA 深度对比
大数据·数据库·人工智能
瑞华丽PLM10 小时前
守住数字化的胜算:PLM项目实施风险控制全景方案
大数据·人工智能·plm·国产plm·瑞华丽plm·瑞华丽