spark on hive 参数

set hive.execution.engine=spark;

set spark.app.name=test9999;

set spark.executor.cores=5;

set spark.executor.memory=20G;

set spark.executor.instances=5;

set spark.driver.memory=5G;

set spark.memory.fraction=0.9;

--定义了 Spark 作业中每个 stage 的默认 task 数量。 Spark 官方建议的设置原则是,将spark.default.parallelism 设置为 num-executors * executor-cores 的 2 到 3 倍。

spark.default.parallelism=50;

set hive.merge.sparkfiles=true;

--是否自动转换为mapjoin

set hive.auto.convert.join=true;

--小表的最大文件大小,默认为25000000,即25M

set hive.mapjoin.smalltable.filesize=25000000;

--是否将多个mapjoin合并为一个

set hive.auto.convert.join.noconditionaltask=true;

--多个mapjoin转换为1个时,所有小表的文件大小总和的最大值。

set hive.auto.convert.join.noconditionaltask.size=25000000;

相关推荐
Forrit2 小时前
Agent长期运行(Long-Running Tasks)实现方案与核心挑战
大数据·人工智能·深度学习
2601_955363153 小时前
技术赋能B端拓客:号码核验的行业困局与破局路径氪迹科技法人股东筛选系统,阶梯式价格
大数据·人工智能
财经资讯数据_灵砚智能3 小时前
全球财经资讯日报(夜间-次晨)2026年3月28日
大数据·人工智能·python·语言模型·ai编程
@insist1233 小时前
数据库系统工程师-云计算与大数据核心知识
大数据·数据库·云计算·软考·数据库系统工程师·软件水平考试
scan7244 小时前
小龙虾模拟人的性格,需要带上历史信息作为上下文
大数据
Yiyaoshujuku5 小时前
医院API接口,从医院真实世界数据HIS、LJS、EMR、PACS系统到医院药品流向数据....
大数据·前端·人工智能
STLearner5 小时前
AI论文速读 | 元认知监控赋能深度搜索:认知神经科学启发的分层优化框架
大数据·论文阅读·人工智能·python·深度学习·学习·机器学习
不一样的故事1266 小时前
抓重点、留弹性、重节奏
大数据·网络·人工智能·安全