【Hadoop-Distcp】通过Distcp的方式进行两个HDFS集群间的数据迁移

【Hadoop-Distcp】通过Distcp的方式进行两个HDFS集群间的数据迁移

  • [1)Distcp 工具简介及参数说明](#1)Distcp 工具简介及参数说明)
  • [2)Shell 脚本](#2)Shell 脚本)

1)Distcp 工具简介及参数说明

【Hadoop-Distcp】工具简介及参数说明

2)Shell 脚本

  • 应用场景:

    两个实时集群交互数据,A 集群B 集群补充数据。

  • 主要说明:

    1、将表名统一放到服务器文本 hotDataTable 中,按照需要将需要补充数据的表放入文本即可。

    2、-i 参数:跳过异常,避免文件迁移过程中出现文件不存在等异常情况出现,异常会中断迁移任务。

    3、-skipcrccheck 参数:跳过 crc 算法校验,会加快数据传输速度。

    4、-update 与 -delete 参数:按照文件进行校验,B 集群 有的会保存,B 集群 没有的会按照 A 集群 进行迁移,B 集群 多出的会进行删除。(通常update与delete一起使用)

  • 其余说明请参考:

    【Hadoop-Distcp】工具简介及参数说明

shell 复制代码
kinit -kt /opt/conf/test.keytab test@PRD.TEST.COM
for tablename in `cat /opt/corns/hotDataTable`
do
hadoop distcp -D ipc.client.fallback-to-simple-auth-allowed=true \
-D mapred.task.timeout=60000000 \
-D mapreduce.job.name=${tablename}-${sample_date} \
-Dmapred.job.queue.name=queuename \
-i \
-skipcrccheck \
-update \
-delete \
-direct \
-bandwidth=60 \
-m=50 \
-numListstatusThreads=40 \
webhdfs://10.1.1.1:4008/user/test/hive/dw_test.db/${tablename}/sample_date=${sample_date}/ \
hdfs://nameserver/warehouse/tablespace/external/hive/test.db/${tablename}/sample_date=${sample_date}
done
相关推荐
isfox3 小时前
Hadoop简介:分布式系统的基石与核心架构详解
hadoop
Lx3525 小时前
大规模Hadoop集群管理:运维经验与监控策略
大数据·hadoop
TTBIGDATA5 小时前
【Ambari监控】Ambari-Metrics 的分支研究
大数据·数据库·hadoop·ambari·bigtop·edp·hidataplus
IT学长编程6 小时前
计算机毕业设计 基于Hadoop的南昌房价数据分析系统的设计与实现 Python 大数据毕业设计 Hadoop毕业设计选题【附源码+文档报告+安装调试
大数据·hadoop·python·毕业设计·课程设计·毕业论文·豆瓣电影数据可视化分析
奋斗的蛋黄7 小时前
HDFS(Hadoop 分布式文件系统)知识点梳理
大数据·hadoop·hdfs
Lx3521 天前
Hadoop数据处理模式:批处理与流处理结合技巧
大数据·hadoop
皆过客,揽星河1 天前
Linux上安装MySQL8详细教程
android·linux·hadoop·mysql·linux安装mysql·数据库安装·详细教程
core5121 天前
Hive实战(二)
数据仓库·hive·hadoop
奋斗的蛋黄1 天前
大数据与云计算知识点
大数据·hadoop·云计算
计算机编程-吉哥2 天前
大数据毕业设计-基于Python的中文起点网小说数据分析平台(高分计算机毕业设计选题·定制开发·真正大数据)
大数据·hadoop·计算机毕业设计选题·机器学习毕业设计·大数据毕业设计·大数据毕业设计选题推荐·大数据毕设项目