hive小文件合并textfile&parquet

  1. 设置环境变量

设置parquet-tools路径

export PARQUET_TOOLS_PATH=/opt/cloudera/parcels/CDH/lib/parquet-tools/parquet-tools-1.9.0.jar

  1. 合并TextFile格式文件:

格式:

java -jar merge.jar hdfs://namenode:8020 /tmp/999testall/ /tmp/999testall/ text 20241220000001

结果会在 /tmp/999testall/ 目录下生成类似 crushed_file-20241220000001-0-0 的文件

  1. 合并Parquet格式文件:

格式:

java -jar merge.jar hdfs://namenode:8020 /tmp /tmp/all.parquet parquet

程序会使用parquet-tools合并所有parquet文件

hadoop jar /home/sunxy/0merge/HDFSUtils.jar hdfs.merge.MergeSmallFile hdfs://nameservice1 /user/hive/warehouse/test.db/md_line222/ /user/hive/warehouse/test.db/md_line222/alldata3.parquet parquet

hadoop jar /home/sunxy/0merge/HDFSUtils.jar hdfs.merge.MergeSmallFile hdfs://nameservice1 /tmp/zptest/1/ /tmp/zptest/1/ text

相关推荐
qiuyepiaoling12 小时前
数仓设计基础
数据仓库
兔子宇航员030113 小时前
HIVE SQL 中 NULL 值在 JOIN 和 GROUP BY 中的致命陷阱与解决方案
hive·hadoop·sql
段一凡-华北理工大学17 小时前
工业领域的Hadoop架构学习~系列文章02:HDFS架构深度剖析
大数据·人工智能·hadoop·学习·架构·高炉炼铁
Irene199118 小时前
Oracle(字符集分为服务端和客户端) 和 Hive(依赖 MySQL(或 PostgreSQL)存储元数据)字符集编码格式查询,中文乱码处理
hive·sql·oracle
段一凡-华北理工大学18 小时前
工业领域的Hadoop架构学习~系列文章03:MapReduce编程模型深度解读
大数据·人工智能·hadoop·学习·架构·高炉炼铁·高炉智能化
兔子宇航员030118 小时前
HiveSQL 中 NULL 与空字符串的区别与注意事项
数据库·数据仓库·sql
无关868819 小时前
StarRocks 存算分离 + Spark + Hive Metastore + MinIO 数据湖搭建全流程
大数据·hive·spark
小欣加油2 天前
Hadoop开发环境搭建
大数据·数据库·hadoop
段一凡-华北理工大学2 天前
工业领域的Hadoop架构学习~系列文章01:Hadoop与工业4.0深度融合
大数据·hadoop·学习·架构·知识图谱·高炉炼铁·工业智能体
宽海智能仓储物流2 天前
从状态检查到数据备份:仓储PLC控制器保养周期与实操清单
大数据·数据仓库·自动化