spark on hive 参数

set hive.execution.engine=spark;

set spark.app.name=test9999;

set spark.executor.cores=5;

set spark.executor.memory=20G;

set spark.executor.instances=5;

set spark.driver.memory=5G;

set spark.memory.fraction=0.9;

--定义了 Spark 作业中每个 stage 的默认 task 数量。 Spark 官方建议的设置原则是,将spark.default.parallelism 设置为 num-executors * executor-cores 的 2 到 3 倍。

spark.default.parallelism=50;

set hive.merge.sparkfiles=true;

--是否自动转换为mapjoin

set hive.auto.convert.join=true;

--小表的最大文件大小,默认为25000000,即25M

set hive.mapjoin.smalltable.filesize=25000000;

--是否将多个mapjoin合并为一个

set hive.auto.convert.join.noconditionaltask=true;

--多个mapjoin转换为1个时,所有小表的文件大小总和的最大值。

set hive.auto.convert.join.noconditionaltask.size=25000000;

相关推荐
SmartBrain1 小时前
AI全栈开发(SDD):慢病管理系统工程级设计
java·大数据·开发语言·人工智能·架构·aigc
zandy10112 小时前
2026 BI平台与数据中台融合架构实践:从数据烟囱到统一智能数据层
大数据·架构·spark
金智维科技官方3 小时前
圆桌对话:从流程自动化到智能流程,AI落地的下一站在哪里?
大数据·人工智能·ai·自动化·智能体
Volunteer Technology4 小时前
集群基础环境搭建(二)
大数据·flink·apache
郑小憨4 小时前
zookeeper内部原理 (进阶介绍 三)
大数据·分布式·zookeeper
厌灵泽(后端小白)4 小时前
Windows11本地安装Zookeeper(最新)
大数据·windows·zookeeper·笔记本电脑
寻道模式6 小时前
【时间之外】私有化部署AI的3个优点和3个缺点
大数据·人工智能·ollama·私有化·genericagent
郑寿昌6 小时前
2026脑机接口与大模型融合架构解析
大数据·人工智能·架构
涤生大数据6 小时前
大数据面试高频题:row_number() 数据倾斜到底怎么解决?
java·大数据·面试
lizhihai_996 小时前
股市学习心得-技术指标学习(布林线+MACD)
大数据·人工智能·学习