Hadoop数据迁移distcp

Hadoop数据迁移distcp

准备工作

  1. 确认源集群(a),目标集群(b)
  2. 确认a集群的主节点和b集群的主节点
  3. 确认两个集群的网络相通
  4. 确认迁移模式(全量迁移还是增量迁移),这里选择全量迁移

迁移文件

  1. 迁移test目录下的文件至目标目录下
    命令:hadoop distcp -p -m 并行度 -bandwidth 带宽 源目录 目标目录
    示例:
bash 复制代码
hadoop distcp -p -m 5 -bandwidth 10 hdfs://源master:8020/test /

注意:源master为主namenode;命令行在目标主namenode上执行。

相关推荐
治愈系科普23 分钟前
数字化种植牙企业
大数据·人工智能·python
AI数据皮皮侠23 分钟前
中国植被生物量分布数据集(2001-2020)
大数据·人工智能·python·深度学习·机器学习
重生之绝世牛码38 分钟前
Linux软件安装 —— PostgreSQL集群安装(主从复制集群)
大数据·linux·运维·数据库·postgresql·软件安装·postgresql主从集群
wAIxiSeu2 小时前
大数据常见存储格式对比:Parquet、ORC、Avro、Arrow与Lance
大数据
数说星榆1812 小时前
预测性维护:设备故障预警与智能维修调度
大数据
weixin_462446232 小时前
Hive 4.0.1 自动安装脚本详解:一键部署 + 环境变量配置(适用于 Linux)
linux·hive·hadoop
GG向前冲3 小时前
【Python 金融量化】线性模型在AAPL股票数据的分析研究
大数据·python·机器学习·ai·金融
2501_946018703 小时前
2026版尼斯分类下商标分类45大类及分类表全解析与选类工具应用
大数据·分类·数据挖掘
小五传输3 小时前
跨网文件摆渡系统是什么?详解其原理、应用与安全价值
大数据·运维·安全
petrel20153 小时前
【Spark 核心内参】2025.11:从 ANTLR 的“生态包袱”到远程 Shuffle 的“云原生解药”
大数据·spark