【Hadoop-Distcp】通过Distcp的方式进行两个HDFS集群间的数据迁移

【Hadoop-Distcp】通过Distcp的方式进行两个HDFS集群间的数据迁移

  • [1)Distcp 工具简介及参数说明](#1)Distcp 工具简介及参数说明)
  • [2)Shell 脚本](#2)Shell 脚本)

1)Distcp 工具简介及参数说明

【Hadoop-Distcp】工具简介及参数说明

2)Shell 脚本

  • 应用场景:

    两个实时集群交互数据,A 集群B 集群补充数据。

  • 主要说明:

    1、将表名统一放到服务器文本 hotDataTable 中,按照需要将需要补充数据的表放入文本即可。

    2、-i 参数:跳过异常,避免文件迁移过程中出现文件不存在等异常情况出现,异常会中断迁移任务。

    3、-skipcrccheck 参数:跳过 crc 算法校验,会加快数据传输速度。

    4、-update 与 -delete 参数:按照文件进行校验,B 集群 有的会保存,B 集群 没有的会按照 A 集群 进行迁移,B 集群 多出的会进行删除。(通常update与delete一起使用)

  • 其余说明请参考:

    【Hadoop-Distcp】工具简介及参数说明

shell 复制代码
kinit -kt /opt/conf/test.keytab test@PRD.TEST.COM
for tablename in `cat /opt/corns/hotDataTable`
do
hadoop distcp -D ipc.client.fallback-to-simple-auth-allowed=true \
-D mapred.task.timeout=60000000 \
-D mapreduce.job.name=${tablename}-${sample_date} \
-Dmapred.job.queue.name=queuename \
-i \
-skipcrccheck \
-update \
-delete \
-direct \
-bandwidth=60 \
-m=50 \
-numListstatusThreads=40 \
webhdfs://10.1.1.1:4008/user/test/hive/dw_test.db/${tablename}/sample_date=${sample_date}/ \
hdfs://nameserver/warehouse/tablespace/external/hive/test.db/${tablename}/sample_date=${sample_date}
done
相关推荐
makise-8 小时前
破译大数据底层密码:从 HDFS 存储基石到现代分布式计算引擎的架构演进
大数据·hdfs·架构
Francek Chen14 小时前
【大数据处理与分析】MapReduce:06 MapReduce编程实践
大数据·hadoop·分布式·mapreduce
王小王-12315 小时前
基于 Hadoop 的二手房数据分析与可视化平台项目展示
大数据·hadoop·数据分析·大数据房价分析·二手房价格预测·hive房价数据分析
知识分享小能手16 小时前
Hadoop学习教程,从入门到精通, HBase 分布式数据库 — 完整知识点与案例代码(8)
数据库·hadoop·分布式
王小王-12316 小时前
基于 Hadoop 的心脏病分析可视化与风险预测系统
大数据·hadoop·分布式·心脏病预测系统·疾病预测·冠心病风险预测
TPBoreas1 天前
springboot3.5比2.x做了哪儿些提升
数据仓库·hive·hadoop
Nefu_lyh2 天前
【Hive】七、Hive 函数:聚合 / 统计 / 分位数 / 集合 / 高级分组
数据仓库·hive·hadoop
阿 才2 天前
跟文件系统(busybox)的构建
大数据·hadoop·分布式
abcy0712132 天前
flask celery hdfs 异步上传
python·hdfs·flask
KANGBboy2 天前
hive UDF函数
数据仓库·hive·hadoop