Spark：性能调优实战

链接：

一、资源申请&并行度

sql 复制代码

spark.executor.cores

一个Executor中同时可以执行的task数目（在Executor内存不变的情况下，executor-cores数越大，平均下来一个task可以使用的内存就越少）

sql 复制代码

spark.executor.memory

Executor Java进程的堆内存大小，即Executor Java进程的Xmx值

sql 复制代码

spark.yarn.executor.memoryOverhead

Executor Java进程的off-heap内存，包括JVM overhead，sort、shuffle以及Netty的堆外内存等

sql 复制代码

spark.dynamicAllocation.enabled

是否开启动态资源分配，强烈建议开启。

sql 复制代码

spark.dynamicAllocation.maxExecutors

开启动态资源分配后，同一时刻，最多可申请的executor个数

sql 复制代码

spark.dynamicAllocation.minExecutors

开启动态资源分配后，某一时刻executor的最小个数。默认设置为3，即在任何时刻，作业都会保持至少有3个及以上的executor存活

sql 复制代码

spark.memory.fraction

存储+执行内存占节点总内存的大小。

sql 复制代码

spark.memory.storageFraction

存储内存占(存储+执行)内存的比例

sql 复制代码

spark.driver.memory

driver使用内存大小

sql 复制代码

spark.yarn.driver.memoryOverhead

driver进程的off-heap内存

二、文件大小

sql 复制代码

spark.hadoop.hive.exec.orc.split.strategy

参数控制在读取ORC表时生成split的策略:

BI策略以文件为粒度进行split划分；

ETL策略会将文件进行切分，多个stripe组成一个split；

HYBRID策略当文件的平均大小大于hadoop最大split值（默认256M）时使用ETL策略，否则使用BI策略。

由于读orc文件时默认按文件划分task(BI模式), 有数据倾斜的表（这里的数据倾斜指大量stripe存储于少数文件中）的情况并发可能不够, 影响执行效率. 可以改成ETL模式
对于一些较大的ORC表，可能其footer较大，ETL策略可能会导致其从hdfs拉取大量的数据来切分split，甚至会导致driver端OOM，因此这类表的读取建议使用BI策略。

sql 复制代码

spark.hadoop.mapreduce.input.fileinputformat.split.minsize

计算Split划分时的minSize

sql 复制代码

spark.hadoop.mapreduce.input.fileinputformat.split.maxsize

控制在ORC切分时stripe的合并处理。具体逻辑是，当几个stripe的大小大于spark.hadoop.mapreduce.input.fileinputformat.split.maxsize时，会合并到一个task中处理。可以适当调小该值，如set spark.hadoop.mapreduce.input.fileinputformat.split.maxsize=134217728。以此增大读ORC表的并发。

sql 复制代码

spark.hadoopRDD.targetBytesInPartition

读取输入文件时&最终合并小文件时，每个task读取的数据量

sql 复制代码

spark.sql.adaptive.shuffle.targetPostShuffleInputSize

开启spark.sql.adaptive.enabled后，最后一个stage在进行动态合并partition时，会根据shuffle read的数据量除以该参数设置的值来计算合并后的partition数量。所以增大该参数值会减少partition数量，反之会增加partition数量。

sql 复制代码

spark.sql.mergeSmallFileSize

与 hive.merge.smallfiles.avgsize 类似，写入hdfs后小文件合并的阈值。如果生成的文件平均大小低于该参数配置，则额外启动一轮stage进行小文件的合并

sql 复制代码

spark.sql.targetBytesInPartitionWhenMerge

与hive.merge.size.per.task 类似，设置额外的合并job的map端输入size.

合并小文件时候，实际的map输入size=max(spark.sql.mergeSmallFileSize, spark.sql.targetBytesInPartitionWhenMerge , spark.hadoopRDD.targetBytesInPartition )

sql 复制代码

spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version

文件提交算法，MapReduce-4815 详细介绍了 fileoutputcommitter 的原理，version=2 是批量按照目录进行提交，version=1是一个个的按照文件提交。设置 version=2 可以极大的节省文件提交至hdfs的时间，减轻nn压力。参考http://www.jasongj.com/spark/committer/

三、shuffle

sql 复制代码

spark.sql.shuffle.partitions

reduce阶段(shuffle read)的数据分区，分区数越多，启动的task越多，同时生成的文件数也会越多。

sql 复制代码

spark.sql.adaptive.enabled

是否开启调整partition功能，如果开启，spark.sql.shuffle.partitions设置的partition可能会被合并到一个reducer里运行。

sql 复制代码

spark.sql.adaptive.minNumPostShufflePartitions

开启spark.sql.adaptive.enabled后，合并之后最少会生成的分区数

sql 复制代码

spark.sql.adaptive.shuffle.targetPostShuffleInputSize

开启spark.sql.adaptive.enabled后，最后一个stage在进行动态合并partition时，会根据shuffle read的数据量除以该参数设置的值来计算合并后的partition数量。所以增大该参数值会减少partition数量，反之会增加partition数量。

sql 复制代码

spark.sql.adaptive.join.enabled

是否动态调整join算法

sql 复制代码

spark.sql.adaptiveBroadcastJoinThreshold

SortMergeJoin 转 BroadcastJoin 的阈值。

如果不设置该参数，该阈值与spark.sql.autoBroadcastJoinThreshold的值相等

sql 复制代码

 spark.sql.statistics.fallBackToHdfs

当表的文件大小元数据信息不可能用时回退到hdfs计算表的文件大小，从而决定是否使用map join. 分区表如果读入数据较少也不会优化为BroadcastJoin, 可以通过添加该参数优化:

sql 复制代码

spark.sql.adaptive.allowAdditionalShuffle

是否允许为了优化 Join 而增加 Shuffle。其默认值为 false

sql 复制代码

spark.sql.adaptive.skewedJoin.enabled

是否自动处理 Join 时数据倾斜 (根据前面stage的shuffle write信息操作来动态调整是使用sortMergeJoin还是broadcastJoin)

sql 复制代码

spark.sql.adaptive.skewedPartitionMaxSplits

处理一个倾斜 Partition 的 Task 个数上限，默认值为 5

sql 复制代码

spark.sql.adaptive.skewedPartitionRowCountThreshold

一个 Partition 被视为倾斜 Partition 的行数下限，也即行数低于该值的 Partition 不会被当作倾斜 Partition 处理。其默认值为 10L * 1000 * 1000 即一千万

sql 复制代码

spark.sql.adaptive.skewedPartitionSizeThreshold

一个 Partition 被视为倾斜 Partition 的大小下限，也即大小小于该值的 Partition 不会被视作倾斜 Partition。其默认值为 64 * 1024 * 1024 也即 64MB

sql 复制代码

spark.sql.adaptive.skewedPartitionFactor

倾斜因子。如果一个 Partition 的大小大于spark.sql.adaptive.skewedPartitionSizeThreshold的同时大于各 Partition 大小中位数与该因子的乘积，或者行数大于spark.sql.adaptive.skewedPartitionRowCountThreshold的同时大于各 Partition 行数中位数与该因子的乘积，则它会被视为倾斜的 Partition

sql 复制代码

spark.shuffle.service.enabled

启用外部shuffle服务，这个服务会安全地保存shuffle过程中，executor写的磁盘文件，因此executor即使挂掉也不要紧，必须配合spark.dynamicAllocation.enabled属性设置为true，才能生效，而且外部shuffle服务必须进行安装和启动，才能启用这个属性

sql 复制代码

spark.reducer.maxSizeInFlight

同一时刻一个reducer可以同时拉取的数据量大小

sql 复制代码

spark.reducer.maxReqsInFlight

同一时刻一个reducer可以同时产生的请求数

sql 复制代码

spark.reducer.maxBlocksInFlightPerAddress

同一时刻一个reducer向同一个上游executor最多可以拉取的数据块数

sql 复制代码

spark.shuffle.io.connectionTimeout

客户端超时时间，超过该时间会fetchfailed

sql 复制代码

spark.shuffle.io.maxRetries

shuffle read task从shuffle write task所在节点拉取属于自己的数据时，如果因为网络异常导致拉取失败，是会自动进行重试的。该参数就代表了可以重试的最大次数。如果在指定次数之内拉取还是没有成功，就可能会导致作业执行失败。

sql 复制代码

spark.shuffle.io.retryWait

每次重试的等待间隔：

sql 复制代码

spark.task.maxFailures

Task的最大重试次数

sql 复制代码

spark.reducer.maxReqSizeShuffleToMem

shuffle请求的文件块大小超过这个参数值，就会被强行落盘，防止一大堆并发请求把内存占满。

四、广播mapjoin

sql 复制代码

spark.sql.autoBroadcastJoinThreshold

当执行join时，小表被广播的阈值。当被设置为-1，则禁用广播。表大小需要从 Hive Metastore 中获取统计信息。该参数设置的过大会对driver和executor都产生压力。

五、推测执行

sql 复制代码

spark.speculation

spark推测执行的开关，作用同hive的推测执行

sql 复制代码

spark.speculation.interval

开启推测执行后，每隔多久通过checkSpeculatableTasks方法检测是否有需要推测式执行的tasks