spark on hive 参数

set hive.execution.engine=spark;

set spark.app.name=test9999;

set spark.executor.cores=5;

set spark.executor.memory=20G;

set spark.executor.instances=5;

set spark.driver.memory=5G;

set spark.memory.fraction=0.9;

--定义了 Spark 作业中每个 stage 的默认 task 数量。 Spark 官方建议的设置原则是,将spark.default.parallelism 设置为 num-executors * executor-cores 的 2 到 3 倍。

spark.default.parallelism=50;

set hive.merge.sparkfiles=true;

--是否自动转换为mapjoin

set hive.auto.convert.join=true;

--小表的最大文件大小,默认为25000000,即25M

set hive.mapjoin.smalltable.filesize=25000000;

--是否将多个mapjoin合并为一个

set hive.auto.convert.join.noconditionaltask=true;

--多个mapjoin转换为1个时,所有小表的文件大小总和的最大值。

set hive.auto.convert.join.noconditionaltask.size=25000000;

相关推荐
深圳UMI4 小时前
AI模型设计基础入门
大数据·人工智能
计算机毕业编程指导师4 小时前
毕业设计选题推荐之基于Spark的在线教育投融数据可视化分析系统 |爬虫|大数据|大屏|预测|深度学习|数据分析|数据挖掘
大数据·hadoop·python·数据挖掘·spark·毕业设计·在线教育投融
白雪讲堂4 小时前
【GEO从入门到精通】生成式引擎与其他 AI 技术的关系
大数据·人工智能·数据分析·智能电视·geo
yangmf20406 小时前
Easysearch 冷热架构实战
java·大数据·elasticsearch·搜索引擎
2501_924730616 小时前
智慧城管复杂人流场景下识别准确率↑32%:陌讯多模态感知引擎实战解析
大数据·人工智能·算法·计算机视觉·目标跟踪·视觉检测·边缘计算
小Tomkk7 小时前
数据仓库命名规范
大数据·数据仓库·spark
申耀的科技观察7 小时前
【观察】亚信科技:AI大模型交付引领,三大新引擎重构业务增长逻辑
大数据·人工智能·科技·重构
hrrrrb7 小时前
【Spring Boot 快速入门】八、登录认证(二)统一拦截
hive·spring boot·后端
趣味科技v12 小时前
阵痛中的AI进化样本:亚信科技2025中期业绩解读
大数据·人工智能·科技