关于 Apache Spark 的参数设置,用于优化和调整 Spark 应用程序的行为和性能

关于 Apache Spark 的参数设置,用于优化和调整 Spark 应用程序的行为和性能

下面是每个配置的简要说明:

spark.dynamicAllocation.enabled=true:启用动态资源分配,允许 Spark 根据任务需求自动调整执行器的数量。

spark.shuffle.service.enabled=false:禁用独立的 Shuffle 服务,将 Shuffle 过程合并到 Executor 中。

spark.dynamicAllocation.initialExecutors=10:初始执行器的数量,当动态资源分配启用时使用。

spark.dynamicAllocation.minExecutors=10:执行器的最小数量。

spark.dynamicAllocation.maxExecutors=500:执行器的最大数量。

spark.dynamicAllocation.executorAllocationRatio=0.5:用于执行器分配的比例,表示给每个应用程序分配的资源相对于集群中所有可用资源的比例。

spark.dynamicAllocation.executorIdleTimeout=60s:执行器空闲时自动释放的超时时间。

spark.dynamicAllocation.cachedExecutorIdleTimeout=30min:空闲缓存执行器的超时时间,该执行器可以更快地重新分配给作业。

spark.dynamicAllocation.shuffleTracking.enabled=true:启用作业的 Shuffle 动态分配跟踪。

spark.dynamicAllocation.shuffleTracking.timeout=30min:Shuffle 动态分配跟踪的超时时间。

spark.dynamicAllocation.schedulerBacklogTimeout=1s:作业调度队列中作业等待的超时时间。

spark.dynamicAllocation.sustainedSchedulerBacklogTimeout=1s:作业调度队列中连续等待的时间阈值。

spark.cleaner.periodicGC.interval=5min:垃圾回收的周期间隔。

spark.sql.adaptive.enabled=true:启用自适应查询执行,允许 Spark 在运行时动态调整查询执行计划。

spark.sql.adaptive.forceApply=false:是否强制应用自适应执行。

spark.sql.adaptive.logLevel=info:自适应执行的日志级别。

spark.sql.adaptive.advisoryPartitionSizeInBytes=256m:用于自适应执行的建议分区大小。

spark.sql.adaptive.coalescePartitions.enabled=true:启用自适应分区合并。

spark.sql.adaptive.coalescePartitions.minPartitionNum=1:分区合并的最小分区数。

spark.sql.adaptive.coalescePartitions.initialPartitionNum=8192:分区合并的初始分区数。

spark.sql.adaptive.fetchShuffleBlocksInBatch=true:在批量中获取 Shuffle 块。

spark.sql.adaptive.localShuffleReader.enabled=true:启用本地 Shuffle 读取。

spark.sql.adaptive.skewJoin.enabled=true:启用自适应倾斜连接优化。

spark.sql.adaptive.skewJoin.skewedPartitionFactor=5:用于检测倾斜分区的标准差因子。

spark.sql.adaptive.skewJoin.skewedPartitionThresholdInBytes=400m:倾斜分区的阈值。

spark.sql.adaptive.nonEmptyPartitionRatioForBroadcastJoin=0.2:广播连接时的非空分区比例。

spark.sql.autoBroadcastJoinThreshold=-1:自动广播连接阈值,-1 表示禁用。

这些参数可以根据具体的需求和环境进行调整和定制,以优化 Spark 应用程序的性能和资源利用

相关推荐
用户199701080181 分钟前
抖音商品列表API技术文档
大数据·数据挖掘·数据分析
Fireworkitte1 小时前
Kafka的ISR、OSR、AR详解
分布式·kafka·ar
数据皮皮侠3 小时前
最新上市公司业绩说明会文本数据(2017.02-2025.08)
大数据·数据库·人工智能·笔记·物联网·小程序·区块链
计算机毕设-小月哥5 小时前
完整源码+技术文档!基于Hadoop+Spark的鲍鱼生理特征大数据分析系统免费分享
大数据·hadoop·spark·numpy·pandas·计算机毕业设计
Jinkxs5 小时前
AI重塑金融风控:从传统规则到智能模型的信贷审批转型案例
大数据·人工智能
时序数据说12 小时前
时序数据库市场前景分析
大数据·数据库·物联网·开源·时序数据库
2501_9301040416 小时前
GitCode 疑难问题诊疗:全方位指南
大数据·elasticsearch·gitcode
健康平安的活着16 小时前
es7.17.x es服务yellow状态的排查&查看节点,分片状态数量
大数据·elasticsearch·搜索引擎
念念010716 小时前
基于MATLAB多智能体强化学习的出租车资源配置优化系统设计与实现
大数据·人工智能·matlab
sunxinyu18 小时前
曲面/线 拟合gnuplot
大数据·线性回归·数据处理·数据拟合·二维三维空间数据