记一次项目上hadoop数据迁移

项目现状:

项目上需要更换底层云服务器商,需要将老项目环境hadoop数据迁移到新服务器hadoop上。

老项目环境hadoop配置:

通过K8s集群部署的datanode节点数11个,分布在11台云服务器节点上,hdfs中三副本机制存储,三副本数据总量在4T左右。

新项目环境hadoop配置:

通过K8s集群部署的datanode节点9个,分布在9台云服务器节点上,hdfs中三副本机制存储。

原计划采用hadoop distcp,通过新旧环境的namenode地址配置迁移命令,后发现由于新旧环境网络策略影响,迁移过程中无法相互访问通对应的datanode地址,因此配置namenode的迁移方式失败。改用httpfs地址进行迁移。

在迁移过程中发现:

1.用户的部分分区表数据文件个数较多,存在一个库下一万多张表,部分表下有一千多个分区几万个数据文件。

2.配置较大的迁移速率会导致datanode节点超时下线。

受网络策略影响,最后源地址使用httpfs地址,目的地址使用namenode地址,从目的端namenode向源端httpfs同步数据。(最好是从源端同步数据到目的端)

迁移脚本:

https://github.com/HeGuanhao/test/blob/master/hdfs_migration/hdfs_distcp_migrate.sh

执行命令:

powershell 复制代码
nohup ./hdfs_distcp_migrate.sh > /dev/null 2>&1 &
相关推荐
GIS数据转换器6 分钟前
延凡低成本低空无人机AI巡检方案
大数据·人工智能·信息可视化·数据挖掘·无人机
lvyuanj7 分钟前
zookeeper_cluster
分布式·zookeeper·云原生
七夜zippoe37 分钟前
OpenClaw 子代理(Subagent)机制详解
大数据·人工智能·subagent·openclaw·子代理
财经三剑客1 小时前
长安汽车3月销量超27万辆 海外及新能源环比大幅增长
大数据·人工智能·汽车
ClouGence1 小时前
不用搭复杂系统,也能做跨地域数据迁移?
大数据·数据库·saas
xixixi777771 小时前
Token 经济引爆 AI 产业加速:从百模大战到百虾大战,谁在定义 2026 的中国 AI?
大数据·人工智能·机器学习·ai·大模型·算力·通信
嵌入式老牛1 小时前
SST专题3-1 基于光分路器的MMC分布式控制系统架构(二)
分布式·电力电子·mmc·固态变压器
Gent_倪2 小时前
数据建模概念解析
大数据·数据建模
永霖光电_UVLED2 小时前
Polar Light 获得了欧盟Eurostars计划的110万欧元(€1.1m)资助
大数据·人工智能·物联网·汽车·娱乐
琪伦的工具库2 小时前
批量excel文件删除列工具使用说明:按列号或列名批量删除/保留,支持预览与大文件优化
大数据·excel