Hive合并小文件

通过sql进行合并:

1、concatenate方法:

对于非分区表:alter table tablename concatenate

对于分区表:alter table partition(dt=20231201) concatenate

使用方便,但只适用于rcfile和orc文件类型,需要执行多次才能把文件合并成一个

2、insert overwriter方法

支持所有数据类型,但是select 后面要把所有字段拼起来,如果使用*,由于带有dt字段,无法写入新的分区。

3、insert overwrite table tablename select * 用法

从select * 中去掉一列(address)的方法:

insert overwriter table tablename select '(address)?+.+'from test

想合并成一个文件,分区字段必须去掉。

也可以通过参数合并

在map输入的时候合并小文件:

-- 每个Map最大输入大小,决定合并后的文件数

set mapred.max.split.size=256000000;

-- 一个节点上split的至少的大小 ,决定了多个data node上的文件是否需要合并

set mapred.min.split.size.per.node=100000000;

-- 一个交换机下split的至少的大小,决定了多个交换机上的文件是否需要合并

set mapred.min.split.size.per.rack=100000000;

-- 执行Map前进行小文件合并

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

在reduce输出的的时候合并小文件:

-- 在map-only job后合并文件,默认true

set hive.merge.mapfiles = true;

-- 在map-reduce job后合并文件,默认false

set hive.merge.mapredfiles = true;

-- 合并后每个文件的大小,默认256000000

set hive.merge.size.per.task = 256000000;

-- 平均文件大小,是决定是否执行合并操作的阈值,默认16000000

set hive.merge.smallfiles.avgsize = 100000000;

相关推荐
Theodore_102212 小时前
大数据(2) 大数据处理架构Hadoop
大数据·服务器·hadoop·分布式·ubuntu·架构
簌簌曌13 小时前
CentOS7 + JDK8 虚拟机安装与 Hadoop + Spark 集群搭建实践
大数据·hadoop·spark
Theodore_102215 小时前
大数据(1) 大数据概述
大数据·hadoop·数据分析·spark·hbase
IvanCodes17 小时前
六、Sqoop 导出
大数据·hadoop·sqoop
workflower17 小时前
以光量子为例,详解量子获取方式
数据仓库·人工智能·软件工程·需求分析·量子计算·软件需求
weixin_4723394618 小时前
Doris查询Hive数据:实现高效跨数据源分析的实践指南
数据仓库·hive·hadoop
火龙谷20 小时前
【hadoop】相关集群开启命令
大数据·hadoop·分布式
神奇侠20241 天前
Hive SQL常见操作
hive·hadoop·sql
SelectDB技术团队2 天前
从 ClickHouse、Druid、Kylin 到 Doris:网易云音乐 PB 级实时分析平台降本增效
大数据·数据仓库·clickhouse·kylin·实时分析
itachi-uchiha2 天前
Docker部署Hive大数据组件
大数据·hive·docker