spark on hive 参数

set hive.execution.engine=spark;

set spark.app.name=test9999;

set spark.executor.cores=5;

set spark.executor.memory=20G;

set spark.executor.instances=5;

set spark.driver.memory=5G;

set spark.memory.fraction=0.9;

--定义了 Spark 作业中每个 stage 的默认 task 数量。 Spark 官方建议的设置原则是,将spark.default.parallelism 设置为 num-executors * executor-cores 的 2 到 3 倍。

spark.default.parallelism=50;

set hive.merge.sparkfiles=true;

--是否自动转换为mapjoin

set hive.auto.convert.join=true;

--小表的最大文件大小,默认为25000000,即25M

set hive.mapjoin.smalltable.filesize=25000000;

--是否将多个mapjoin合并为一个

set hive.auto.convert.join.noconditionaltask=true;

--多个mapjoin转换为1个时,所有小表的文件大小总和的最大值。

set hive.auto.convert.join.noconditionaltask.size=25000000;

相关推荐
小小王app小程序开发26 分钟前
任务悬赏小程序深度细分分析:非技术视角下的运营逻辑拆解
大数据·小程序
非极限码农4 小时前
Neo4j图数据库上手指南
大数据·数据库·数据分析·neo4j
莫叫石榴姐6 小时前
SQL百题斩:从入门到精通,一站式解锁数据世界
大数据·数据仓库·sql·面试·职场和发展
Hello.Reader6 小时前
Flink 状态后端(State Backends)实战原理、选型、配置与调优
大数据·flink
dundunmm9 小时前
【每天一个知识点】[特殊字符] 大数据的定义及单位
大数据
IT森林里的程序猿9 小时前
基于Hadoop的京东电商平台手机推荐系统的设计与实现
大数据·hadoop·智能手机
笨蛋少年派10 小时前
MapReduce简介
大数据·mapreduce
秃头菜狗10 小时前
十四、运行经典案例 wordcount
大数据·linux·hadoop
INFINI Labs10 小时前
Elasticsearch 备份:方案篇
大数据·elasticsearch·搜索引擎·gateway·snapshot·backup·ccr
Java战神10 小时前
Hadoop
大数据·hadoop·分布式