Hive sql执行文件合并配置参数

HIVE自动合并输出的小文件的主要优化手段为:HIVE将会启动一个独立的map-reduce任务进行输出文件的merge。

set hive.merge.mapfiles = true:

在只有map的作业结束时合并小文件,

set hive.merge.mapredfiles = true:

在Map-Reduce的任务结束时合并小文件,默认为False;

set hive.merge.size.per.task = 256000000;

合并后每个文件的大小,默认256M

set hive.merge.smallfiles.avgsize=16000000;

当输出文件的平均大小小于16M时合并。

set hive.merge.orcfile.stripe.level=false;

当设置为true,orc文件进行stripe Level级别的合并,当设置为false,orc文件进行文件级别的合并。

相关推荐
一个天蝎座 白勺 程序猿几秒前
KingbaseES 处理 PL/SQL 运行时错误全解析:从异常捕获到异常处理的实践指南
数据库·sql·oracle·kingbasees
德彪稳坐倒骑驴2 小时前
Sqoop入门常用命令
数据库·hadoop·sqoop
乐12392 小时前
追飞机 icao数据库地址
sql
Hello.Reader3 小时前
PyFlink DataStream 程序骨架、常用 Source/Sink、状态(State)、与 Table/SQL 互转一篇搞定
数据库·sql·linq
俊哥大数据3 小时前
【项目6】基于Hadoop+Hive+Springboot+vue新闻资讯大数据仓库项目
数据仓库·hive·hadoop
俊哥大数据3 小时前
【实战项目4】Hadoop金融信贷大数据离线分析项目
大数据·hadoop·金融
kejiayuan19 小时前
CTE更易懂的SQL风格
数据库·sql
PyHaVolask20 小时前
SQL注入漏洞原理
数据库·sql
2501_9335130421 小时前
Oracle统计分析某个SQL的执行频率
数据库·sql·oracle
l1t1 天前
DeepSeek辅助编写的利用位掩码填充唯一候选数方法求解数独SQL
数据库·sql·算法·postgresql