Spark_spark参数配置优先级

总结 :

优先级低-》优先级高

spark-submit 提交的优先级 < scala/java代码中的配置参数 < spark SQL hint

spark submit 中提交参数

复制代码
#!/usr/bin/env bash

source /home/work/batch_job/product/common/common.sh
spark_version="/home/work/opt/spark"
export SPARK_CONF_DIR=${spark_version}/conf/
spark_shell="/home/opt/spark/spark3-client/bin/spark-shell"
spark_sql="/home/work/opt/spark/spark3-client/bin/spark-sql"
echo ${spark_sql}
echo ${spark_shell}
${spark_shell} --master yarn \
        --queue test \
        --name "evelopment_sun-data-new_spark_shell" \
        --conf "spark.speculation=true" \
        --conf "spark.network.timeout=400s" \
        --conf "spark.executor.cores=2" \
        --conf "spark.executor.memory=4g" \
        --conf "spark.executor.instances=300" \
        --conf "spark.driver.maxResultSize=4g" \
        --conf "spark.sql.shuffle.partitions=800" \
        --conf "spark.driver.extraJavaOptions=-Dfile.encoding=utf-8" \
        --conf "spark.executor.extraJavaOptions=-Dfile.encoding=utf-8" \
        --conf "spark.driver.memory=8g" \
        --conf "spark.sql.autoBroadcastJoinThreshold=-1" \
        --conf "spark.sql.turing.pooledHiveClientEnable=false" \
        --conf "spark.sql.hive.metastore.jars=/home/work/opt/spark/spark3-client/hive_compatibility/*" \
        --conf "spark.driver.extraClassPath=./__spark_libs__/hive-extensions-2.0.0.0-SNAPSHOT.jar:./hive_jar/parquet-hadoop-bundle-1.6.0.jar:/home/work/opt/spark/spark3-client/hive_compatibility/parquet-hadoop-bundle-1.6.0.jar" \
       --conf spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2 \
       --conf "spark.sql.legacy.timeParserPolicy=LEGACY" \
       --conf "spark.sql.storeAssignmentPolicy=LEGACY" \
       --conf spark.executor.extraJavaOptions="-XX:+UseG1GC" \
       --jars ./online-spark-1.0-SNAPSHOT.jar

scala/java代码中的配置参数

复制代码
    val conf = new SparkConf().setAppName(s"production_data-new_UserOverview_${event_day}")
    val spark = SparkSession.builder().config("spark.debug.maxToStringFields", "500").config(conf).getOrCreate()

SQL hint

复制代码
SELECT /*+ MERGEJOIN(t2) */ * FROM t1 INNER JOIN t2 ON t1.key = t2.key;

Hints - Spark 3.5.0 hints Documentation

相关推荐
Hello.Reader1 天前
Flink TaskManager 内存配置从“总量”到“组件”,把资源用在刀刃上
大数据·flink
观远数据1 天前
中国式报表是什么?观远BI如何赋能企业数据决策
大数据·数据挖掘·数据分析·时序数据库
小冷coding1 天前
【ES】 Elasticsearch在电商系统中的核心应用场景与实践案例
大数据·elasticsearch·搜索引擎
EndingCoder1 天前
高级项目:构建一个 CLI 工具
大数据·开发语言·前端·javascript·elasticsearch·搜索引擎·typescript
搞科研的小刘选手1 天前
【虚拟现实/人机交互会议】第二届人工智能、虚拟现实与交互设计国际学术会议(AIVRID)
大数据·人工智能·计算机·aigc·虚拟现实·国际学术会议·交互技术
AORUO奥偌1 天前
医用气体报警箱:构筑楼层气体安全的监测前哨
大数据·数据库
数说星榆1811 天前
AI零售:个性化推荐与智能库存管理
大数据·人工智能·零售
h7ml1 天前
基于 RabbitMQ 构建异步化淘客订单处理流水线:解耦、削峰与失败重试
分布式·rabbitmq·ruby
数据知道1 天前
PostgreSQL 实战:如何优雅高效地进行全文检索
大数据·数据库·postgresql·全文检索
草莓熊Lotso1 天前
Qt 显示与输入类控件进阶:数字、进度、输入框实战攻略
java·大数据·开发语言·c++·人工智能·qt