Hive sql执行文件合并配置参数

HIVE自动合并输出的小文件的主要优化手段为:HIVE将会启动一个独立的map-reduce任务进行输出文件的merge。

set hive.merge.mapfiles = true:

在只有map的作业结束时合并小文件,

set hive.merge.mapredfiles = true:

在Map-Reduce的任务结束时合并小文件,默认为False;

set hive.merge.size.per.task = 256000000;

合并后每个文件的大小,默认256M

set hive.merge.smallfiles.avgsize=16000000;

当输出文件的平均大小小于16M时合并。

set hive.merge.orcfile.stripe.level=false;

当设置为true,orc文件进行stripe Level级别的合并,当设置为false,orc文件进行文件级别的合并。

相关推荐
白帽子凯哥哥2 分钟前
在学习SQL注入或XSS这类具体漏洞时,如何设计一个高效的“理论+实践”学习循环?
sql·学习·漏洞·xss
weixin_4250230030 分钟前
MybatisPlusJoin 完整样例
java·数据库·sql
l1t38 分钟前
修改一个触发PostgreSQL 17.2 bug的SQL
sql·postgresql·bug
是阿威啊1 小时前
【第六站】测试本地项目连接虚拟机上的大数据集群
大数据·linux·hive·hadoop·spark·yarn
IvanCodes1 小时前
openGauss 存储核心机制:从表空间到数据块
数据库·sql·oracle·opengauss
阿坤带你走近大数据2 小时前
Oracle中如何监控SQL执行时间?
数据库·sql·oracle
青木川崎2 小时前
hive实战
数据仓库·hive·hadoop
是阿威啊2 小时前
【第五站】集群组件一键启动/关闭脚本(Hadoop/YARN + Hive + Spark)
linux·运维·hive·hadoop·spark
青木川崎2 小时前
大数据技术之hive
大数据·hive·hadoop
SelectDB技术团队3 小时前
慢 SQL 诊断准确率 99.99%,天翼云基于 Apache Doris MCP 的 AI 智能运维实践
大数据·数据库·人工智能·sql·apache