spark on hive 参数

set hive.execution.engine=spark;

set spark.app.name=test9999;

set spark.executor.cores=5;

set spark.executor.memory=20G;

set spark.executor.instances=5;

set spark.driver.memory=5G;

set spark.memory.fraction=0.9;

--定义了 Spark 作业中每个 stage 的默认 task 数量。 Spark 官方建议的设置原则是,将spark.default.parallelism 设置为 num-executors * executor-cores 的 2 到 3 倍。

spark.default.parallelism=50;

set hive.merge.sparkfiles=true;

--是否自动转换为mapjoin

set hive.auto.convert.join=true;

--小表的最大文件大小,默认为25000000,即25M

set hive.mapjoin.smalltable.filesize=25000000;

--是否将多个mapjoin合并为一个

set hive.auto.convert.join.noconditionaltask=true;

--多个mapjoin转换为1个时,所有小表的文件大小总和的最大值。

set hive.auto.convert.join.noconditionaltask.size=25000000;

相关推荐
PersistJiao22 分钟前
实时数仓:Flink 任务实现、Hudi 表设计细节或治理工具的具体配置
大数据·flink
黑风风27 分钟前
大数据架构设计:数据分层治理的全景指南
大数据
精神病不行计算机不上班1 小时前
【深度学习基础】用深度学习做数据预测的大体流程
大数据·深度学习·机器学习
田振靓2 小时前
Ubuntu上安装Apache Spark
ubuntu·spark·apache
Bruce_Liuxiaowei2 小时前
自动化文件监控与分类压缩:实现高效文件管理
大数据·python·自动化
重生之绝世牛码7 小时前
Java设计模式 —— 【行为型模式】命令模式(Command Pattern) 详解
java·大数据·开发语言·设计模式·命令模式·设计原则
Anna_Tong9 小时前
引领实时数据分析新时代:阿里云实时数仓 Hologres
大数据·阿里云·数据分析·实时数仓
jinan88611 小时前
电子图纸怎么保障安全?
大数据·安全
生信碱移11 小时前
万字长文:机器学习的数学基础(易读)
大数据·人工智能·深度学习·线性代数·算法·数学建模·数据分析