hive小文件合并textfile&parquet

  1. 设置环境变量

设置parquet-tools路径

export PARQUET_TOOLS_PATH=/opt/cloudera/parcels/CDH/lib/parquet-tools/parquet-tools-1.9.0.jar

  1. 合并TextFile格式文件:

格式:

java -jar merge.jar hdfs://namenode:8020 /tmp/999testall/ /tmp/999testall/ text 20241220000001

结果会在 /tmp/999testall/ 目录下生成类似 crushed_file-20241220000001-0-0 的文件

  1. 合并Parquet格式文件:

格式:

java -jar merge.jar hdfs://namenode:8020 /tmp /tmp/all.parquet parquet

程序会使用parquet-tools合并所有parquet文件

hadoop jar /home/sunxy/0merge/HDFSUtils.jar hdfs.merge.MergeSmallFile hdfs://nameservice1 /user/hive/warehouse/test.db/md_line222/ /user/hive/warehouse/test.db/md_line222/alldata3.parquet parquet

hadoop jar /home/sunxy/0merge/HDFSUtils.jar hdfs.merge.MergeSmallFile hdfs://nameservice1 /tmp/zptest/1/ /tmp/zptest/1/ text

相关推荐
B站计算机毕业设计超人6 天前
计算机毕业设计Django+Vue.js高考推荐系统 高考可视化 大数据毕业设计(源码+LW文档+PPT+详细讲解)
大数据·vue.js·hadoop·django·毕业设计·课程设计·推荐算法
B站计算机毕业设计超人6 天前
计算机毕业设计Django+Vue.js音乐推荐系统 音乐可视化 大数据毕业设计 (源码+文档+PPT+讲解)
大数据·vue.js·hadoop·python·spark·django·课程设计
十月南城6 天前
数据湖技术对比——Iceberg、Hudi、Delta的表格格式与维护策略
大数据·数据库·数据仓库·hive·hadoop·spark
王九思6 天前
Hive Thrift Server 介绍
数据仓库·hive·hadoop
土拨鼠烧电路6 天前
笔记11:数据中台:不是数据仓库,是业务能力复用的引擎
数据仓库·笔记
Asher05096 天前
Hive核心知识:从基础到实战全解析
数据仓库·hive·hadoop
xhaoDream6 天前
Hive3.1.3 配置 Tez 引擎
大数据·hive·tez
yumgpkpm6 天前
AI视频生成:Wan 2.2(阿里通义万相)在华为昇腾下的部署?
人工智能·hadoop·elasticsearch·zookeeper·flink·kafka·cloudera
Asher05096 天前
Hadoop核心技术与实战指南
大数据·hadoop·分布式