spark on hive 参数

set hive.execution.engine=spark;

set spark.app.name=test9999;

set spark.executor.cores=5;

set spark.executor.memory=20G;

set spark.executor.instances=5;

set spark.driver.memory=5G;

set spark.memory.fraction=0.9;

--定义了 Spark 作业中每个 stage 的默认 task 数量。 Spark 官方建议的设置原则是,将spark.default.parallelism 设置为 num-executors * executor-cores 的 2 到 3 倍。

spark.default.parallelism=50;

set hive.merge.sparkfiles=true;

--是否自动转换为mapjoin

set hive.auto.convert.join=true;

--小表的最大文件大小,默认为25000000,即25M

set hive.mapjoin.smalltable.filesize=25000000;

--是否将多个mapjoin合并为一个

set hive.auto.convert.join.noconditionaltask=true;

--多个mapjoin转换为1个时,所有小表的文件大小总和的最大值。

set hive.auto.convert.join.noconditionaltask.size=25000000;

相关推荐
howard20054 小时前
4.2 Hive数据表操作
hive·内部表·数据表·插入记录·查询记录
BD_Marathon5 小时前
【Hive】复杂数据类型
数据仓库·hive·hadoop
茗鹤APS和MES5 小时前
APS高级计划排程:汽车零部件厂生产排产的智慧之选
大数据·制造·精益生产制造·aps高级排程系统
蒙特卡洛的随机游走6 小时前
Spark的persist和cache
大数据·分布式·spark
蒙特卡洛的随机游走6 小时前
Spark 中 distribute by、sort by、cluster by 深度解析
大数据·分布式·spark
梦里不知身是客116 小时前
Spark中的宽窄依赖-宽窄巷子
大数据·分布式·spark
化作星辰6 小时前
java 给鉴权kafka2.7(sasl)发送消息权限异常处理
java·大数据·开发语言·kafka
user_admin_god6 小时前
企业级管理系统的站内信怎么轻量级优雅实现
java·大数据·数据库·spring boot
mengml_smile6 小时前
大数据生态Sql引擎
大数据
isNotNullX10 小时前
怎么用数据仓库来进行数据治理?
大数据·数据库·数据仓库·数据治理