hive小文件合并textfile&parquet

  1. 设置环境变量

设置parquet-tools路径

export PARQUET_TOOLS_PATH=/opt/cloudera/parcels/CDH/lib/parquet-tools/parquet-tools-1.9.0.jar

  1. 合并TextFile格式文件:

格式:

java -jar merge.jar hdfs://namenode:8020 /tmp/999testall/ /tmp/999testall/ text 20241220000001

结果会在 /tmp/999testall/ 目录下生成类似 crushed_file-20241220000001-0-0 的文件

  1. 合并Parquet格式文件:

格式:

java -jar merge.jar hdfs://namenode:8020 /tmp /tmp/all.parquet parquet

程序会使用parquet-tools合并所有parquet文件

hadoop jar /home/sunxy/0merge/HDFSUtils.jar hdfs.merge.MergeSmallFile hdfs://nameservice1 /user/hive/warehouse/test.db/md_line222/ /user/hive/warehouse/test.db/md_line222/alldata3.parquet parquet

hadoop jar /home/sunxy/0merge/HDFSUtils.jar hdfs.merge.MergeSmallFile hdfs://nameservice1 /tmp/zptest/1/ /tmp/zptest/1/ text

相关推荐
荒川之神6 小时前
Oracle 数据仓库雪花模型设计(完整实战方案)
数据库·数据仓库·oracle
RestCloud8 小时前
2026年企业级ETL工具选型指南:从开源DataX到商业化ETLCloud的演进
数据仓库·开源·etl·datax·数据处理·数据集成·数据传输
荒川之神9 小时前
Oracle 数据仓库星座模型(Galaxy Model)设计原则
数据库·数据仓库·oracle
瀚高PG实验室11 小时前
ETL中,分区表子表未及时收集统计信息,导致sql执行耗时很长
数据库·数据仓库·sql·etl·瀚高数据库
仗剑_走天涯11 小时前
hadoop reduce阶段 对象重用问题
大数据·hadoop·分布式
荒川之神12 小时前
Oracle 数据仓库雪花模型设计原则(核心 + 落地 + Oracle 数据库适配)
数据库·数据仓库·oracle
荒川之神12 小时前
Oracle 数据仓库星型模型设计原则
数据库·数据仓库·oracle
仗剑_走天涯13 小时前
hadoop 中 yarn node -list 显示0 问题解决
大数据·hadoop·分布式
武子康2 天前
大数据-263 实时数仓-Canal 增量订阅与消费原理:MySQL Binlog 数据同步实践
大数据·hadoop·后端
仗剑_走天涯2 天前
zookeeper 安装与配置
hadoop·zookeeper