Spark 性能调优七步法

本文档综合了 Spark 工程中常见的性能瓶颈和优化技巧,分为七大调优方向,适用于 PySpark 和 Scala Spark 场景,包括资源配置、并行度、缓存、垃圾回收、UDF 性能、Shuffle 优化和作业结构管控等。


一、资源配置调优

目标

合理分配 executor 和 JVM 内存,避免 OOM 和 GC 过高导致性能下降或 executor 被 YARN Kill。

优化策略

参数 推荐配置 说明
--executor-memory 8G ~ 20G JVM 堆内存,过大易导致 Full GC
--executor-cores 2 ~ 5 避免超过带条数导致 GC
spark.executor.memoryOverhead 至少 2G(PySpark 推荐为 4G 或更高) off-heap 内存,包括 Python UDF/缓冲区/数据缓存
--num-executors 根据总核数计算 = 总CPU核数 / 每executor核数

示例

复制代码
--executor-memory 16G \
--executor-cores 4 \
--conf spark.executor.memoryOverhead=4G \
--num-executors 50

二、数据分区和并行度

目标

避免 task 单次处理数据过多或过少,导致 GC 或分布失衡,强化应用的并行能力。

优化策略

  • 初始读取后使用 repartition(n) 指定分区

  • 调整 spark.sql.shuffle.partitions(默认 200)

  • 结果写出前使用 coalesce(n) 减少小文件

    df = df.repartition(200)
    spark.conf.set("spark.sql.shuffle.partitions", "400")
    df.coalesce(100).write.parquet("...")


三、缓存优化

目标

提高数据重复读取时性能,避免多次进程计算。

优化策略

  • 使用 persist() 替代 cache()

  • 指定缓存级别:MEMORY_AND_DISK_SER 节省内存

  • 后续不使用时应该 unpersist()

    from pyspark import StorageLevel
    df.persist(StorageLevel.MEMORY_AND_DISK_SER)
    ...
    df.unpersist()


四、垃圾回收 (GC) 优化

目标

降低 GC 时间,避免 JVM 停顿,提高作业稳定性。

优化策略

  • JVM 堆内存 <= 20G

  • 推荐使用 G1GC

  • 启用 GC 日志分析

    --conf spark.executor.extraJavaOptions="-XX:+UseG1GC -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCDateStamps"


五、UDF 代码和逻辑优化

目标

减少 JVM 和 Python 之间的序列化或处理费,提高运行效率。

优化策略

  • 优先考虑 Spark SQL 表达式或 built-in 函数

  • 用 pandas UDF 替换 Python UDF

  • 避免 collect()/groupByKey()

    @pandas_udf(StringType(), functionType="PANDAS_UDF")
    def clean(col: pd.Series) -> pd.Series:
    return col.str.lower().str.strip()

    df = df.withColumn("cleaned", clean("name"))


六、Shuffle 性能优化

目标

降低 shuffle 输入输出 IO 和缓冲压力,避免倦缓/磁盘 spill,提高性能。

优化策略

  • 避免 groupByKey,优先 reduceByKey 或 aggregateByKey

  • 启用 shuffle 压缩、spill 压缩

  • 适应场景使用 Broadcast Join / Sort-Merge Join

  • 解决数据倾斜:Salting 或 AQE

示例配置

复制代码
--conf spark.shuffle.compress=true \
--conf spark.shuffle.spill.compress=true \
--conf spark.shuffle.file.buffer=64k \
--conf spark.sql.autoBroadcastJoinThreshold=10MB \
--conf spark.sql.adaptive.enabled=true

七、作业结构和任务管理

目标

控制 DAG 深度,避免特殊大 task 倾斜,提升较均衡执行效率。

优化策略

  • 较复杂的 DAG 作业分时 checkpoint/cache

  • 推荐使用 AQE 展现时动性分区和 join 选择

  • 避免大幅 broadcast join (大于 10MB)

    spark.conf.set("spark.sql.adaptive.enabled", "true")


总结:Spark 调优七步法(记忆词:资-分-存-收-码-洗-控)

分类 内容
1. 资源配置 内存/核数/超越内存配置
2. 分区并行度 repartition / shuffle 分区
3. 数据缓存 persist 级别 / 释放时机
4. GC 优化 G1GC / JVM 堆 / GC 日志
5. UDF 逻辑 pandas UDF / Spark SQL 替代
6. Shuffle 优化 join 类型 / 倾斜解决方案
7. 作业控制 AQE / checkpoint / 分步执行

相关推荐
TDengine (老段)12 分钟前
中原油田引入时序数据库 TDengine:写入性能提升、存储成本下降 85%
大数据·数据库·人工智能·时序数据库·tdengine·涛思数据
财经资讯数据_灵砚智能14 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年4月12日
大数据·人工智能·信息可视化·自然语言处理·ai编程
Crazy CodeCrafter24 分钟前
现在做服装,实体和电商怎么选?
大数据·数据库·人工智能·微信·开源软件·零售
2601_9544345528 分钟前
2026年专业深度测评:入门电钢琴品牌排名前五权威发布
大数据·人工智能·python
xixixi7777732 分钟前
通信产业的“全维度加速”:从5G-A商用、6G冲刺到卫星互联网密集组网
大数据·网络·人工智能·ai·多模型
Albert Edison41 分钟前
【RabbitMQ】快速入门
java·分布式·rabbitmq
想你依然心痛1 小时前
HarmonyOS 5.0医疗健康开发实战:构建分布式健康监测与AI预警系统
人工智能·分布式·harmonyos
青春不流名1 小时前
kafka 集成OAUTHBEARER认证的例子
分布式·kafka
洛豳枭薰1 小时前
kafka重平衡导致的消息重复消费或者消息丢失
分布式·kafka
rannn_1111 小时前
【Redis|高级篇1】分布式缓存|持久化(RDB、AOF)、主从集群、哨兵、分片集群
java·redis·分布式·后端·缓存