Hive sql执行文件合并配置参数

HIVE自动合并输出的小文件的主要优化手段为:HIVE将会启动一个独立的map-reduce任务进行输出文件的merge。

set hive.merge.mapfiles = true:

在只有map的作业结束时合并小文件,

set hive.merge.mapredfiles = true:

在Map-Reduce的任务结束时合并小文件,默认为False;

set hive.merge.size.per.task = 256000000;

合并后每个文件的大小,默认256M

set hive.merge.smallfiles.avgsize=16000000;

当输出文件的平均大小小于16M时合并。

set hive.merge.orcfile.stripe.level=false;

当设置为true,orc文件进行stripe Level级别的合并,当设置为false,orc文件进行文件级别的合并。

相关推荐
黑客老李8 小时前
BaseCTF scxml 详解
开发语言·网络·数据库·python·sql·安全
五行星辰9 小时前
SQL与数据库交互:Java的财富管理
数据库·sql·交互
大鳥9 小时前
深入了解 StarRocks 表类型:解锁高效数据分析的密码
数据库·starrocks·sql
神秘打工猴12 小时前
hive在大数据体系里面起到什么作用
hive
Amd79413 小时前
深入剖析数据删除操作:DELETE 语句的使用与管理实践
sql·postgresql·性能优化·数据库管理·数据完整性·数据删除·delete 语句
Neil Parker13 小时前
搭建Hadoop分布式集群
大数据·hadoop·分布式
背太阳的牧羊人14 小时前
使用 SQL 和表格数据进行问答和 RAG(4)— 使用 SQL 与 CSV 数据交互
sql·langchain·csv
sunxunyong16 小时前
spark on hive 参数
大数据·hive·spark
B站计算机毕业设计超人17 小时前
计算机毕业设计hadoop+spark+hive新能源汽车推荐系统 汽车数据分析可视化大屏 新能源汽车推荐系统 汽车爬虫 汽车大数据 机器学习
大数据·hive·hadoop·python·深度学习·spark·课程设计
RoadToTheExpert17 小时前
SqlServerExpress安装及C#和Java代码连接说明
sql·server·studio·management·2008