hive小文件合并textfile&parquet

  1. 设置环境变量

设置parquet-tools路径

export PARQUET_TOOLS_PATH=/opt/cloudera/parcels/CDH/lib/parquet-tools/parquet-tools-1.9.0.jar

  1. 合并TextFile格式文件:

格式:

java -jar merge.jar hdfs://namenode:8020 /tmp/999testall/ /tmp/999testall/ text 20241220000001

结果会在 /tmp/999testall/ 目录下生成类似 crushed_file-20241220000001-0-0 的文件

  1. 合并Parquet格式文件:

格式:

java -jar merge.jar hdfs://namenode:8020 /tmp /tmp/all.parquet parquet

程序会使用parquet-tools合并所有parquet文件

hadoop jar /home/sunxy/0merge/HDFSUtils.jar hdfs.merge.MergeSmallFile hdfs://nameservice1 /user/hive/warehouse/test.db/md_line222/ /user/hive/warehouse/test.db/md_line222/alldata3.parquet parquet

hadoop jar /home/sunxy/0merge/HDFSUtils.jar hdfs.merge.MergeSmallFile hdfs://nameservice1 /tmp/zptest/1/ /tmp/zptest/1/ text

相关推荐
心止水j12 小时前
hive桶
数据仓库·hive·hadoop
心止水j12 小时前
hive 分区总结
数据仓库·hive·hadoop
走遍西兰花.jpg12 小时前
在hive中实现拉链表的更新和merge into
数据仓库·hive·hadoop
zgl_2005377913 小时前
ZGLanguage 解析SQL数据血缘 之 提取子查询语句中的源表名
大数据·数据库·数据仓库·hive·hadoop·sql·etl
qq_124987075313 小时前
基于Hadoop的黑龙江旅游景点推荐系统的设计与实现(源码+论文+部署+安装)
大数据·hadoop·分布式·python·信息可视化
laocooon52385788613 小时前
大专Hadoop课程考试方案设计
大数据·hadoop·分布式
是阿威啊13 小时前
【用户行为归因分析项目】- 【企业级项目开发第五站】数据采集并加载到hive表
大数据·数据仓库·hive·hadoop·spark·scala
zhixingheyi_tian14 小时前
Yarn 之 nodemanager.containermanager.container
hadoop
心止水j1 天前
数据库问题
数据仓库·hive·hadoop
yumgpkpm1 天前
网易数帆EasyData使用Cloudera CDP、CMP(华为鲲鹏版)作为底座的AI功能操作步骤
大数据·hive·hadoop·深度学习·kafka·transformer·cloudera