spark on hive 参数

set hive.execution.engine=spark;

set spark.app.name=test9999;

set spark.executor.cores=5;

set spark.executor.memory=20G;

set spark.executor.instances=5;

set spark.driver.memory=5G;

set spark.memory.fraction=0.9;

--定义了 Spark 作业中每个 stage 的默认 task 数量。 Spark 官方建议的设置原则是,将spark.default.parallelism 设置为 num-executors * executor-cores 的 2 到 3 倍。

spark.default.parallelism=50;

set hive.merge.sparkfiles=true;

--是否自动转换为mapjoin

set hive.auto.convert.join=true;

--小表的最大文件大小,默认为25000000,即25M

set hive.mapjoin.smalltable.filesize=25000000;

--是否将多个mapjoin合并为一个

set hive.auto.convert.join.noconditionaltask=true;

--多个mapjoin转换为1个时,所有小表的文件大小总和的最大值。

set hive.auto.convert.join.noconditionaltask.size=25000000;

相关推荐
lizhihai_995 小时前
股市学习心得—半导体12种核心材料
大数据·人工智能·学习
ZGi.ai5 小时前
智能客服系统设计:从工单分类到自动派单的工程实现
大数据·人工智能·分类
PaperData6 小时前
2000-2023年地级市数字基础设施评价指标体系
大数据·网络·数据库·人工智能·数据分析·经管
Blockchain Learning6 小时前
去中心化身份(DID)模型解析:区块链如何重塑身份管理?
大数据·去中心化·区块链
xcbrand6 小时前
政府事业机构品牌策划公司哪家可靠
大数据·人工智能·python
程序鉴定师6 小时前
如何选择合适的深圳小程序开发公司?
大数据·小程序
晨启AI7 小时前
GPT-5.5 来了!OpenAI 最新提示词指南深度解读
大数据·人工智能·ai·提示词
地球资源数据云8 小时前
中国陆地生态系统主要植物功能特征空间分布数据
大数据·数据库·人工智能·机器学习
金智维科技官方8 小时前
AI智能体在7×24客服场景中的真实表现评估
大数据·人工智能·ai·rpa·智能体
WL_Aurora8 小时前
MapReduce经典例题【第二期】
大数据·mapreduce