Hive sql执行文件合并配置参数

HIVE自动合并输出的小文件的主要优化手段为:HIVE将会启动一个独立的map-reduce任务进行输出文件的merge。

set hive.merge.mapfiles = true:

在只有map的作业结束时合并小文件,

set hive.merge.mapredfiles = true:

在Map-Reduce的任务结束时合并小文件,默认为False;

set hive.merge.size.per.task = 256000000;

合并后每个文件的大小,默认256M

set hive.merge.smallfiles.avgsize=16000000;

当输出文件的平均大小小于16M时合并。

set hive.merge.orcfile.stripe.level=false;

当设置为true,orc文件进行stripe Level级别的合并,当设置为false,orc文件进行文件级别的合并。

相关推荐
马猴烧酒.7 分钟前
JAVA后端用户登录与鉴权详解
java·数据库·sql
Hello.Reader39 分钟前
Flink 2.2 Docker 部署Session / Application / SQL Client 一把梭(含 Compose、插件、连接器与踩坑点)
sql·docker·flink
xuekai200809012 小时前
GaussDB-SQL优化案例
数据库·sql·gaussdb
weixin_462446234 小时前
Hive 4.0.1 自动安装脚本详解:一键部署 + 环境变量配置(适用于 Linux)
linux·hive·hadoop
海星船长丶5 小时前
预编译与sql注入,正则回溯绕过,mysql常见绕过,报错注入7大常用函数
服务器·数据库·sql·mysql·网络安全
Mikhail_G5 小时前
Mysql数据库操作指南——数据库(零基础篇)
大数据·数据库·sql·mysql·数据分析
無森~5 小时前
Hive执行复杂查询报错
大数据·数据仓库·hive
独泪了无痕5 小时前
SQL数据类型转换:CAST详解及实践
数据库·sql·oracle
l1t6 小时前
修改德哥的PostgreSQL求解数独SQL在cedardb上运行
数据库·sql·postgresql·cedardb
一个天蝎座 白勺 程序猿6 小时前
KingbaseES 解锁时序数据:国产数据库在物联网时代的突围之路
数据库·sql·物联网·kingbasees