Hive sql执行文件合并配置参数

HIVE自动合并输出的小文件的主要优化手段为:HIVE将会启动一个独立的map-reduce任务进行输出文件的merge。

set hive.merge.mapfiles = true:

在只有map的作业结束时合并小文件,

set hive.merge.mapredfiles = true:

在Map-Reduce的任务结束时合并小文件,默认为False;

set hive.merge.size.per.task = 256000000;

合并后每个文件的大小,默认256M

set hive.merge.smallfiles.avgsize=16000000;

当输出文件的平均大小小于16M时合并。

set hive.merge.orcfile.stripe.level=false;

当设置为true,orc文件进行stripe Level级别的合并,当设置为false,orc文件进行文件级别的合并。

相关推荐
她说..1 天前
Spring AOP场景4——事务管理(源码分析)
java·数据库·spring boot·后端·sql·spring·springboot
男孩李1 天前
linux下执行pg数据的sql文件,报错error:permission denied for schema plat
数据库·sql
小阿宁的猫猫1 天前
sqlmap的使用
sql·网络安全·php
howard20051 天前
Hive实战任务 - 9.3 实现学生信息排序和统计
hive·排序·汇总·学生信息
番茄撒旦在上1 天前
什么样的表适合做拉链表
大数据·数据仓库·hive
嘟嘟w1 天前
SQL注入是什么
数据库·sql·oracle
surtr11 天前
数据库基础(数据库原理和应用)
数据库·sql·mysql·oracle·database
howard20051 天前
Hive实战任务 - 9.5 实现网址去重
hive·网址去重
howard20051 天前
Hive实战任务 - 9.4 分科汇总求月考平均分
hive·分科汇总月考平均分
卓码软件测评1 天前
CMA/CNAS软件测评机构:【Gatling数据库性能关联测试JDBC连接和SQL执行时间监控】
数据库·sql·测试工具·性能优化·测试用例