Hive sql执行文件合并配置参数

HIVE自动合并输出的小文件的主要优化手段为:HIVE将会启动一个独立的map-reduce任务进行输出文件的merge。

set hive.merge.mapfiles = true:

在只有map的作业结束时合并小文件,

set hive.merge.mapredfiles = true:

在Map-Reduce的任务结束时合并小文件,默认为False;

set hive.merge.size.per.task = 256000000;

合并后每个文件的大小,默认256M

set hive.merge.smallfiles.avgsize=16000000;

当输出文件的平均大小小于16M时合并。

set hive.merge.orcfile.stripe.level=false;

当设置为true,orc文件进行stripe Level级别的合并,当设置为false,orc文件进行文件级别的合并。

相关推荐
一条咸鱼¥¥¥2 小时前
【运维经验】使用QQ邮箱SMTP服务器设置ssms计划任务完成时邮件发送
运维·服务器·经验分享·sql·sqlserver
l1t10 小时前
利用Duckdb求解Advent of Code 2025第9题 最大矩形面积
数据库·sql·算法·duckdb·advent of code
写代码的【黑咖啡】10 小时前
HDFS简介及其存储机制详解
大数据·hadoop·hdfs
独泪了无痕10 小时前
COALESCE函数:处理NULL值的利器
sql·mysql·函数式编程
二营长111 小时前
线上系统mysql数据库突然sql执行不出来记录
数据库·sql·mysql
俊哥大数据12 小时前
【项目实战1】大数据项目开发案例---新闻资讯离线分析|实时分析|大数据仓库|推荐系统|数据可视化项目
数据仓库·hadoop·flink·spark·推荐系统·实时分析·离线分析
忘记92613 小时前
Servlet 生命周期
数据仓库·hive·hadoop
先做个垃圾出来………14 小时前
SQL字符串函数
数据库·sql
zhixingheyi_tian15 小时前
HDFS 之 Client 调试
大数据·hadoop·hdfs
天天向上杰16 小时前
小识:从理财数仓角度看GaussDB、PostgreSQL、Hive 三区别
hive·hadoop·gaussdb