记一次项目上hadoop数据迁移

项目现状:

项目上需要更换底层云服务器商,需要将老项目环境hadoop数据迁移到新服务器hadoop上。

老项目环境hadoop配置:

通过K8s集群部署的datanode节点数11个,分布在11台云服务器节点上,hdfs中三副本机制存储,三副本数据总量在4T左右。

新项目环境hadoop配置:

通过K8s集群部署的datanode节点9个,分布在9台云服务器节点上,hdfs中三副本机制存储。

原计划采用hadoop distcp,通过新旧环境的namenode地址配置迁移命令,后发现由于新旧环境网络策略影响,迁移过程中无法相互访问通对应的datanode地址,因此配置namenode的迁移方式失败。改用httpfs地址进行迁移。

在迁移过程中发现:

1.用户的部分分区表数据文件个数较多,存在一个库下一万多张表,部分表下有一千多个分区几万个数据文件。

2.配置较大的迁移速率会导致datanode节点超时下线。

受网络策略影响,最后源地址使用httpfs地址,目的地址使用namenode地址,从目的端namenode向源端httpfs同步数据。(最好是从源端同步数据到目的端)

迁移脚本:

https://github.com/HeGuanhao/test/blob/master/hdfs_migration/hdfs_distcp_migrate.sh

执行命令:

powershell 复制代码
nohup ./hdfs_distcp_migrate.sh > /dev/null 2>&1 &
相关推荐
汤姆yu14 分钟前
SkyClaw‑v1.0昆仑万维天工 AI
大数据·人工智能
我是大AI35 分钟前
搜极星 GEO:让 AI 精准推荐,品牌不再隐形
大数据·人工智能·ai
2601_9577875843 分钟前
企业内容矩阵系统:AI赋能下的全链路运营与获客升级
大数据·人工智能·矩阵
龙亘川1 小时前
智慧政务大数据整体解决方案全解析|架构设计、建设内容、落地实践与价值复盘
大数据·政务
山川湖海1 小时前
AI时代快速学编程语言的陷阱(以Python为例)
大数据·人工智能·python
春日见2 小时前
5分钟入门强化学习之动态规划算法与实现
大数据·人工智能·python·算法·机器学习·计算机视觉
SNKXD_12 小时前
2026品牌运营团队AI营销培训:TOP5轻量化课程适配常态化技能升级学习
大数据·人工智能·学习
TMT星球2 小时前
AI时代的风控攻防战:Soul如何用AI治理AI
大数据·人工智能
肖有米XTKF86462 小时前
肖有米开发团队:初语山言商城系统开发-初语山言模式制度解析
大数据·团队开发·csdn开发云
AI_yangxi3 小时前
短视频矩阵系统哪个稳定
大数据·人工智能·矩阵