hive小文件合并textfile&parquet

  1. 设置环境变量

设置parquet-tools路径

export PARQUET_TOOLS_PATH=/opt/cloudera/parcels/CDH/lib/parquet-tools/parquet-tools-1.9.0.jar

  1. 合并TextFile格式文件:

格式:

java -jar merge.jar hdfs://namenode:8020 /tmp/999testall/ /tmp/999testall/ text 20241220000001

结果会在 /tmp/999testall/ 目录下生成类似 crushed_file-20241220000001-0-0 的文件

  1. 合并Parquet格式文件:

格式:

java -jar merge.jar hdfs://namenode:8020 /tmp /tmp/all.parquet parquet

程序会使用parquet-tools合并所有parquet文件

hadoop jar /home/sunxy/0merge/HDFSUtils.jar hdfs.merge.MergeSmallFile hdfs://nameservice1 /user/hive/warehouse/test.db/md_line222/ /user/hive/warehouse/test.db/md_line222/alldata3.parquet parquet

hadoop jar /home/sunxy/0merge/HDFSUtils.jar hdfs.merge.MergeSmallFile hdfs://nameservice1 /tmp/zptest/1/ /tmp/zptest/1/ text

相关推荐
秃了也弱了。6 小时前
StarRocks:高性能分析型数据仓库
数据仓库
心疼你的一切7 小时前
数字智人:CANN加速的实时数字人生成与交互
数据仓库·深度学习·aigc·交互·cann
心疼你的一切7 小时前
语音革命:CANN驱动实时语音合成的技术突破
数据仓库·开源·aigc·cann
心疼你的一切7 小时前
解构CANN仓库:AIGC API从底层逻辑到实战落地,解锁国产化AI生成算力
数据仓库·人工智能·深度学习·aigc·cann
心疼你的一切8 小时前
基于CANN仓库算力手把手实现Stable Diffusion图像生成(附完整代码+流程图)
数据仓库·深度学习·stable diffusion·aigc·流程图·cann
心疼你的一切8 小时前
代码革命:CANN加速的AI编程助手实战
数据仓库·深度学习·aigc·ai编程·cann
心疼你的一切9 小时前
三维创世:CANN加速的实时3D内容生成
数据仓库·深度学习·3d·aigc·cann
心疼你的一切9 小时前
药物发现革命:CANN加速的AI分子生成与优化系统
数据仓库·人工智能·深度学习·aigc·cann
TTBIGDATA1 天前
【Atlas】Atlas Hook 消费 Kafka 报错:GroupAuthorizationException
hadoop·分布式·kafka·ambari·hdp·linq·ranger
零一科技1 天前
centos7安装hadoop3(上)
hadoop