Hive跨集群数据迁移过程

文章目录

环境

  • Hive集群A
  • Hive集群B
  • 跳转机一台

数据迁移需求

本次迁移数据100G,15亿条,数据流转方向从集群A经过跳转机到集群B,通过HDFS拉取和重新建表导入的方式完成数据库迁移。

迁移过程记录

- 当前操作在集群A

  1. 通过执行desc formatted,查看并记录数据库的:①存储位置,②文件存储压缩格式,③表字段;
  2. 对迁移的数据库执行count(*)操作,记录数据量,整体把握,最后做校验;

- 当前操作在跳转机

  1. 获取1.②位置之后,通过hdfs hds -du -h命令检查原始表数据在HDFS中的存储大小,确认是否能拉取到跳转机;
  2. 执行df -h检查跳转机可用存储空间,执行hdfs dfs -get命令,将存储的数据库源文件从集群A的HDFS拉取到跳转机本地;
  3. 执行ls | wc -l命令,检查拉取的数据库源文件数量,此步骤操作是为了校验文件数量;
  4. 如果不是压缩存储的文件,比如CSV,请执行head命令,查看源文件首行是否包含表字段,如果包含表字段,需要在建表时添加TBLPROPERTIES ('skip.header.line.count'='1');
  5. 执行hdfs dfs -put命令,将数据库源文件上传至集群B的HDFS,并执行hdfs hds -du -h检查存储大小是否一致,请提前mkdir准备好存储目录;

- 当前操作在集群B

  1. 根据1.③编辑建表语句并执行,根据压缩存储格式的不同,MapReduce在执行时的输入输出结果也不同;
不指定格式
InputFormat org.apache.hadoop.hive.ql.io.RCFileInputFormat
OutputFormat org.apache.hadoop.hive.ql.io.RCFileOutputFormat
指定TEXTFILE格式
InputFormat org.apache.hadoop.mapred.TextInputFormat
OutputFormat org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat

本次迁移方案数据源文件为.snappy.parquet压缩存储格式,新建的表为TEXTFILE格式,指定了分隔符为,;

  1. 通过beeline执行LOAD DATA INPATH 'hdfs location' into table table_name命令,将HDFS中的数据源文件导入Hive表,至此完成迁移;
  2. 若对存储格式在后续有新的需求,可以在完成导入后,通过创建新的附带存储格式的表,再执行insert overwrite table table_name_new select * from table_name_old;命令,完成Hive存储格式的转换;
  3. 对于数据完整性、一致性的考虑:可以在完成后再次执行count(*),校验数据量,此方法是为了避免出现因格式不同,忽略CSV首行字段问题,或者建表语句错误,剔除了有效数据导致数据缺失的危险行为。
相关推荐
kybs19914 小时前
springboot租车系统--附源码68701
java·hadoop·spring boot·python·django·asp.net·php
计算机毕业编程指导师8 小时前
【Python大数据项目推荐】基于Hadoop+Django脑卒中风险分析系统源码解析 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·spark·毕业设计·脑卒中
计算机毕业编程指导师9 小时前
【大数据毕设推荐】Hadoop+Spark电影票房分析系统,Python+Django全栈实现 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·spark·毕业设计·电影票房
AM越.1 天前
助睿:!!零代码解决!!订单利润分流数据加工o(* ̄▽ ̄*)ブ
数据仓库·笔记·etl·助睿
计算机毕业编程指导师1 天前
【计算机毕设推荐】Python+Spark卵巢癌风险数据可视化系统完整实现 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
hadoop·python·计算机·数据挖掘·spark·毕业设计·卵巢癌
极光代码工作室1 天前
基于大数据的校园消费行为分析系统
大数据·hadoop·python·数据分析·spark
二十六画生的博客2 天前
每个subtask都提交一份快照到hdfs,会把10个小的快照合并成一个大的吗?谁来合并?
大数据·hadoop·hdfs·flink
juniperhan2 天前
Flink 系列第24篇:Flink SQL 集成维度表指南:存储选型、参数调优与实战避坑
大数据·数据仓库·sql·flink
隐于花海,等待花开2 天前
41.ABS / POW / SQRT 函数深度解析
大数据·hive
千月落2 天前
HDFS数据迁移
大数据·hadoop·hdfs