Hive sql执行文件合并配置参数

HIVE自动合并输出的小文件的主要优化手段为:HIVE将会启动一个独立的map-reduce任务进行输出文件的merge。

set hive.merge.mapfiles = true:

在只有map的作业结束时合并小文件,

set hive.merge.mapredfiles = true:

在Map-Reduce的任务结束时合并小文件,默认为False;

set hive.merge.size.per.task = 256000000;

合并后每个文件的大小,默认256M

set hive.merge.smallfiles.avgsize=16000000;

当输出文件的平均大小小于16M时合并。

set hive.merge.orcfile.stripe.level=false;

当设置为true,orc文件进行stripe Level级别的合并,当设置为false,orc文件进行文件级别的合并。

相关推荐
计算机毕业编程指导师9 小时前
【计算机毕设推荐】Python+Hadoop+Spark共享单车数据可视化分析系统 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·数据挖掘·spark·课程设计
计算机毕业编程指导师9 小时前
【计算机毕设】基于Hadoop的共享单车订单数据分析系统+Python+Django全栈开发 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·数据挖掘·spark·django
冬天vs不冷10 小时前
面试必知必会(14):MySQL执行计划与SQL优化
sql·mysql·面试
计算机毕业编程指导师15 小时前
【计算机毕设选题推荐】基于Hadoop+Spark的诺贝尔奖可视化分析系统源码 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·spark·毕业设计·诺贝尔奖
lifewange17 小时前
afinfo 表设计
数据库·sql·mysql
m0_7162550017 小时前
第二部分 电商离线数仓 全套项目代码(可直接在你伪分布式 Hive 运行)
hive·hadoop·分布式
Irene199117 小时前
SQL Developer 连接类型 (Connection Type) :SID 和 Service Name的区别
数据库·sql·连接方式
怀后同学.19 小时前
SQL注入之堆叠注入和绕过WAF
数据库·sql
Irene199119 小时前
PL/SQL:变量使用 两个连续的外部输入 注意事项
数据库·sql
学网安的肆伍1 天前
【043-WEB攻防篇】PHP应用&SQL注入&符号拼接&请求方法&HTTP头&JSON&编码类
sql·安全·php