记一次项目上hadoop数据迁移

项目现状:

项目上需要更换底层云服务器商,需要将老项目环境hadoop数据迁移到新服务器hadoop上。

老项目环境hadoop配置:

通过K8s集群部署的datanode节点数11个,分布在11台云服务器节点上,hdfs中三副本机制存储,三副本数据总量在4T左右。

新项目环境hadoop配置:

通过K8s集群部署的datanode节点9个,分布在9台云服务器节点上,hdfs中三副本机制存储。

原计划采用hadoop distcp,通过新旧环境的namenode地址配置迁移命令,后发现由于新旧环境网络策略影响,迁移过程中无法相互访问通对应的datanode地址,因此配置namenode的迁移方式失败。改用httpfs地址进行迁移。

在迁移过程中发现:

1.用户的部分分区表数据文件个数较多,存在一个库下一万多张表,部分表下有一千多个分区几万个数据文件。

2.配置较大的迁移速率会导致datanode节点超时下线。

受网络策略影响,最后源地址使用httpfs地址,目的地址使用namenode地址,从目的端namenode向源端httpfs同步数据。(最好是从源端同步数据到目的端)

迁移脚本:

https://github.com/HeGuanhao/test/blob/master/hdfs_migration/hdfs_distcp_migrate.sh

执行命令:

powershell 复制代码
nohup ./hdfs_distcp_migrate.sh > /dev/null 2>&1 &
相关推荐
坚持学习前端日记2 小时前
从零开始构建小说推荐智能体 - Coze 本地部署完整教程
大数据·人工智能·数据挖掘
smchaopiao2 小时前
Hive中的排序与分桶技术详解
数据仓库·hive·hadoop
IDIOT___IDIOT2 小时前
关于 git 进行版本管理的时候 gitignore 写入忽略规则而不生效的问题
大数据·git·elasticsearch
不想看见4042 小时前
Git 误删急救手册
大数据·git·elasticsearch
少许极端2 小时前
消息队列-RabbitMQ(1)
分布式·消息队列·rabbitmq
网络工程小王3 小时前
【大数据技术详解】——Elasticsearch技术(学习笔记)
大数据·大数据技术·向量查询
TOWE technology3 小时前
从“制造”到“智造”:智能PDU如何成为智慧工厂的电力“神经中枢”
大数据·人工智能·制造·数据中心·电源管理·智能pdu
2401_891655813 小时前
Git误操作急救手册大纲
大数据·elasticsearch·搜索引擎
LaughingZhu3 小时前
Product Hunt 每日热榜 | 2026-03-22
大数据·数据库·人工智能·经验分享·搜索引擎
进击的雷神3 小时前
Trae AI IDE 完全指南:从入门到精通
大数据·ide·人工智能·trae