- 设置环境变量
设置parquet-tools路径
export PARQUET_TOOLS_PATH=/opt/cloudera/parcels/CDH/lib/parquet-tools/parquet-tools-1.9.0.jar
- 合并TextFile格式文件:
格式:
java -jar merge.jar hdfs://namenode:8020 /tmp/999testall/ /tmp/999testall/ text 20241220000001
结果会在 /tmp/999testall/ 目录下生成类似 crushed_file-20241220000001-0-0 的文件
- 合并Parquet格式文件:
格式:
java -jar merge.jar hdfs://namenode:8020 /tmp /tmp/all.parquet parquet
程序会使用parquet-tools合并所有parquet文件
hadoop jar /home/sunxy/0merge/HDFSUtils.jar hdfs.merge.MergeSmallFile hdfs://nameservice1 /user/hive/warehouse/test.db/md_line222/ /user/hive/warehouse/test.db/md_line222/alldata3.parquet parquet
hadoop jar /home/sunxy/0merge/HDFSUtils.jar hdfs.merge.MergeSmallFile hdfs://nameservice1 /tmp/zptest/1/ /tmp/zptest/1/ text