Hive的文件合并

背景:Flink数据写入到stage层,然后再入ods层,中间导致hive数据实时性不强,随后做优化,Flink之间以orc格式写入到hive

问题:单表日800亿数据量,产生过多的小文件,影响Impala查询

解决:对hive小文件进行合并,

ALTER TABLE lt_ipsy_xdr_temp PARTITION (day=20230829, hour=9,type=4) CONCATENATE;

目前大数据平台hdfs数据存储情况:

数据仓库中的表:

1.stg层是把flink应用程序写入的数据load进入的;

2.ods层表名称中包含ai的表是从mysql导入的;

/_SCRATCH0 这些目录是sqoop 把mysql数据导入hive时生成的临时目录,可以删除。

3.stg 和 ods 的 tb_bu_dc_monitor_day 是外部表,其他层的表都是内部表;

4.stg层是原始数据,没有经过压缩处理,ods及以后其他各层都是orc格式

使用hive concatenate (外部表不可用,内部表可用,orc可用,分桶表不可用)

使用方式:

#1.设置文件最小大小(需要设置,否则合并操作可能会不理想):

SET mapreduce.input.fileinputformat.split.maxsize=256

#对于非分区表

alter table A concatenate;

#2.对于分区表

ALTER TABLE lt_ipsy_xdr_temp PARTITION (day=20230829, hour=9,type=4) CONCATENATE;

因为分桶表不适用,所以可以采用覆写的方式

INSERT OVERWRITE TABLE table

PARTITION (day=20230908,hour=9,datatype=4)

SELECT

a,b,c,d,e

FROM table

where day=20230908 and hour=9 and datatype=4;

相关推荐
qiuyepiaoling1 小时前
数仓设计基础
数据仓库
兔子宇航员03012 小时前
HIVE SQL 中 NULL 值在 JOIN 和 GROUP BY 中的致命陷阱与解决方案
hive·hadoop·sql
段一凡-华北理工大学6 小时前
工业领域的Hadoop架构学习~系列文章02:HDFS架构深度剖析
大数据·人工智能·hadoop·学习·架构·高炉炼铁
Irene19917 小时前
Oracle(字符集分为服务端和客户端) 和 Hive(依赖 MySQL(或 PostgreSQL)存储元数据)字符集编码格式查询,中文乱码处理
hive·sql·oracle
段一凡-华北理工大学7 小时前
工业领域的Hadoop架构学习~系列文章03:MapReduce编程模型深度解读
大数据·人工智能·hadoop·学习·架构·高炉炼铁·高炉智能化
兔子宇航员03018 小时前
HiveSQL 中 NULL 与空字符串的区别与注意事项
数据库·数据仓库·sql
无关86888 小时前
StarRocks 存算分离 + Spark + Hive Metastore + MinIO 数据湖搭建全流程
大数据·hive·spark
小欣加油1 天前
Hadoop开发环境搭建
大数据·数据库·hadoop
段一凡-华北理工大学1 天前
工业领域的Hadoop架构学习~系列文章01:Hadoop与工业4.0深度融合
大数据·hadoop·学习·架构·知识图谱·高炉炼铁·工业智能体
宽海智能仓储物流1 天前
从状态检查到数据备份:仓储PLC控制器保养周期与实操清单
大数据·数据仓库·自动化