Hive sql执行文件合并配置参数

HIVE自动合并输出的小文件的主要优化手段为:HIVE将会启动一个独立的map-reduce任务进行输出文件的merge。

set hive.merge.mapfiles = true:

在只有map的作业结束时合并小文件,

set hive.merge.mapredfiles = true:

在Map-Reduce的任务结束时合并小文件,默认为False;

set hive.merge.size.per.task = 256000000;

合并后每个文件的大小,默认256M

set hive.merge.smallfiles.avgsize=16000000;

当输出文件的平均大小小于16M时合并。

set hive.merge.orcfile.stripe.level=false;

当设置为true,orc文件进行stripe Level级别的合并,当设置为false,orc文件进行文件级别的合并。

相关推荐
TE-茶叶蛋1 小时前
sql优化思维
数据库·sql
打小就很皮...2 小时前
基于 Python + LangChain + SQL 生成自动查询数据实战
数据库·sql·langchain
这个DBA有点耶2 小时前
某银行核心系统从Oracle迁移到国产数据库全程复盘(DBA视角)
数据库·经验分享·sql·oracle·dba·智能硬件
静小谢5 小时前
sql笔记
spring boot·笔记·sql·mybatis
sleepcattt5 小时前
Spring-全面详解(学习总结)
数据库·sql·spring·spring事务·spring详解
极光代码工作室7 小时前
基于大数据的交通流量分析系统
大数据·hadoop·python·数据分析·数据可视化
木子墨5167 小时前
工程算法实战 | 数据库ORDER BY的底层:内存排序 → 外部归并 → 索引优化
数据结构·数据库·python·sql·算法·动态规划
顾随7 小时前
(2)达梦数据库--SQl基础实践
前端·数据库·sql
斌果^O^8 小时前
TDengine TSDB 3.4.0 时序数据库(安装部署 + 数据模型 + SQL 实操 + 项目连接)
sql·时序数据库·tdengine
卷毛迷你猪19 小时前
快速实验篇(A1)干旱气象数据上传至HDFS
大数据·hadoop·hdfs