hivePB级迁移方案

1、评估磁盘空间大小、调整副本数、设置heapsize大小

2、distcp -i -skipcrccheck 源端到目标端,迁移

3、元数据迁移,建表,替换location地址,或者导出db

4、表分区修复

5、配置增量T-1迁移或者T-2

6、校验历史分区脚本,表结构,大小,文件数

7、根据ditcp不对的,进行补数脚本,删分区,重拉

8、任务校验,客户跑完任务后,校验指定分区的count数和内容的md5

9、任务改造,如果md5不一样,说明此表需要做任务改造

10、任务改造,找到md5不同的那一条,对比原表和目标表的值,看哪个字段值不一样

11、二次校验任务

12、校验成功后,切任务,跑当天的数据。

注意如果删除了数据,需要删除分区,可以最后,去Hive源数据库关联每个表的分区和内容与源端比对,然后删除对应的分区,在整体Msck修复一下。

相关推荐
5***79006 小时前
JavaScript生成器函数
hive·tidb·consul
顧棟19 小时前
HDFS元数据与auditlog结合Hive元数据统计分析
hive·hadoop·hdfs
yumgpkpm1 天前
腾讯云TBDS与CDH迁移常见问题有哪些?建议由CDH迁移到CMP 7.13 平台(类Cloudera CDP,如华为鲲鹏 ARM 版)
hive·hadoop·zookeeper·flink·spark·kafka·hbase
yumgpkpm2 天前
数据可视化AI、BI工具,开源适配 Cloudera CMP 7.3(或类 CDP 的 CMP 7.13 平台,如华为鲲鹏 ARM 版)值得推荐?
人工智能·hive·hadoop·信息可视化·kafka·开源·hbase
二进制_博客2 天前
使用datax将mysql数据抽取到hive分区表无数据
数据库·hive·mysql
干就完事了2 天前
Hive视图
数据仓库·hive·hadoop
A尘埃2 天前
Hive基于Hadoop的数据仓库工具
数据仓库·hive·hadoop
百***35943 天前
从0到1部署Tomcat和添加servlet(IDEA2024最新版详细教程)
hive·servlet·tomcat
howard20053 天前
5.2 Hive插入数据实战
hive·插入数据
杂家3 天前
Hive on Spark && Spark on Hive配置
大数据·数据仓库·hive·hadoop·spark