记一次项目上hadoop数据迁移

项目现状:

项目上需要更换底层云服务器商,需要将老项目环境hadoop数据迁移到新服务器hadoop上。

老项目环境hadoop配置:

通过K8s集群部署的datanode节点数11个,分布在11台云服务器节点上,hdfs中三副本机制存储,三副本数据总量在4T左右。

新项目环境hadoop配置:

通过K8s集群部署的datanode节点9个,分布在9台云服务器节点上,hdfs中三副本机制存储。

原计划采用hadoop distcp,通过新旧环境的namenode地址配置迁移命令,后发现由于新旧环境网络策略影响,迁移过程中无法相互访问通对应的datanode地址,因此配置namenode的迁移方式失败。改用httpfs地址进行迁移。

在迁移过程中发现:

1.用户的部分分区表数据文件个数较多,存在一个库下一万多张表,部分表下有一千多个分区几万个数据文件。

2.配置较大的迁移速率会导致datanode节点超时下线。

受网络策略影响,最后源地址使用httpfs地址,目的地址使用namenode地址,从目的端namenode向源端httpfs同步数据。(最好是从源端同步数据到目的端)

迁移脚本:

https://github.com/HeGuanhao/test/blob/master/hdfs_migration/hdfs_distcp_migrate.sh

执行命令:

powershell 复制代码
nohup ./hdfs_distcp_migrate.sh > /dev/null 2>&1 &
相关推荐
实时数据9 分钟前
通过大数据的深度分析与精准营销策略,企业能够有效实现精准引流
大数据
禁默32 分钟前
打破集群通信“内存墙”:手把手教你用 CANN SHMEM 重构 AIGC 分布式算子
分布式·重构·aigc
子榆.1 小时前
CANN 性能分析与调优实战:使用 msprof 定位瓶颈,榨干硬件每一分算力
大数据·网络·人工智能
新芒1 小时前
暖通行业两位数下滑,未来靠什么赢?
大数据·人工智能
忆~遂愿1 小时前
CANN ATVOSS 算子库深度解析:基于 Ascend C 模板的 Vector 算子子程序化建模与融合优化机制
大数据·人工智能
惊讶的猫2 小时前
rabbitmq初步介绍
分布式·rabbitmq
小镇敲码人2 小时前
华为CANN框架中HCCL仓库的全面解析:分布式通信的引擎
分布式·华为
艾莉丝努力练剑3 小时前
【Linux:文件】Ext系列文件系统(初阶)
大数据·linux·运维·服务器·c++·人工智能·算法
User_芊芊君子3 小时前
【分布式训练】CANN SHMEM跨设备内存通信库:构建高效多机多卡训练的关键组件
分布式·深度学习·神经网络·wpf
酷酷的崽7983 小时前
CANN 开源生态解析(四):`cann-dist-train` —— 构建高效可扩展的分布式训练引擎
分布式·开源