Hive sql执行文件合并配置参数

HIVE自动合并输出的小文件的主要优化手段为:HIVE将会启动一个独立的map-reduce任务进行输出文件的merge。

set hive.merge.mapfiles = true:

在只有map的作业结束时合并小文件,

set hive.merge.mapredfiles = true:

在Map-Reduce的任务结束时合并小文件,默认为False;

set hive.merge.size.per.task = 256000000;

合并后每个文件的大小,默认256M

set hive.merge.smallfiles.avgsize=16000000;

当输出文件的平均大小小于16M时合并。

set hive.merge.orcfile.stripe.level=false;

当设置为true,orc文件进行stripe Level级别的合并,当设置为false,orc文件进行文件级别的合并。

相关推荐
宁小法1 小时前
SQL查询对比: select exists($sql) 跟 select * from `users` where `id` = 60000001的区别差异
数据库·sql·select exists
不剪发的Tony老师3 小时前
sqlectron:一款轻量级的SQL客户端
数据库·sql
几度风雨见丹心5 小时前
sqlite图形化界面建数据库、建表、增删改查、选择.db文件、将sql脚本一键导入,并同步数据、一键导出sql脚本并保存本地.sql文件
数据库·sql·sqlite
Hello.Reader5 小时前
Flink Procedures 用 SQL 的 `CALL` 跑 Flink Job(实现、类型推断、命名参数、Catalog 集成一篇搞懂)
大数据·sql·flink
刘冲溟6 小时前
解决 idea 编辑sql文件换行后自动缩进的问题
sql·idea·缩进
是阿威啊6 小时前
企业级的RDD、 Spark SQL、DataFrame、Dataset使用场景介绍
大数据·sql·spark
本旺6 小时前
【数据开发离谱场景记录】Hive + ES 复杂查询场景处理
hive·hadoop·elasticsearch
IvanCodes6 小时前
openGauss 高级特性:优化器、存储引擎与分区管理
数据库·sql·opengauss
航Hang*7 小时前
第3章:复习篇——第5-2节:数据库编程2
数据库·笔记·sql·mysql·sqlserver
islandzzzz7 小时前
SQL学习应用工作场景(2)--执行优先级+语法顺序+保留2位小数
数据库·sql·学习