Hive跨集群数据迁移过程

程序终结者2023-10-18 22:53

文章目录

环境
数据迁移需求
迁移过程记录

环境

Hive集群A
Hive集群B
跳转机一台

数据迁移需求

本次迁移数据100G，15亿条，数据流转方向从集群A经过跳转机到集群B，通过HDFS拉取和重新建表导入的方式完成数据库迁移。

迁移过程记录

- 当前操作在集群A

通过执行desc formatted，查看并记录数据库的：①存储位置，②文件存储压缩格式，③表字段；
对迁移的数据库执行count(*)操作，记录数据量，整体把握，最后做校验；

- 当前操作在跳转机

获取1.②位置之后，通过hdfs hds -du -h命令检查原始表数据在HDFS中的存储大小，确认是否能拉取到跳转机；
执行df -h检查跳转机可用存储空间，执行hdfs dfs -get命令，将存储的数据库源文件从集群A的HDFS拉取到跳转机本地；
执行ls | wc -l命令，检查拉取的数据库源文件数量，此步骤操作是为了校验文件数量；
如果不是压缩存储的文件，比如CSV,请执行head命令，查看源文件首行是否包含表字段，如果包含表字段，需要在建表时添加TBLPROPERTIES ('skip.header.line.count'='1');
执行hdfs dfs -put命令，将数据库源文件上传至集群B的HDFS，并执行hdfs hds -du -h检查存储大小是否一致，请提前mkdir准备好存储目录；

- 当前操作在集群B

根据1.③编辑建表语句并执行，根据压缩存储格式的不同，MapReduce在执行时的输入输出结果也不同；

不指定格式
InputFormat	org.apache.hadoop.hive.ql.io.RCFileInputFormat
OutputFormat	org.apache.hadoop.hive.ql.io.RCFileOutputFormat

指定TEXTFILE格式
InputFormat	org.apache.hadoop.mapred.TextInputFormat
OutputFormat	org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat

本次迁移方案数据源文件为.snappy.parquet压缩存储格式，新建的表为TEXTFILE格式，指定了分隔符为,;

通过beeline执行LOAD DATA INPATH 'hdfs location' into table table_name命令，将HDFS中的数据源文件导入Hive表，至此完成迁移；
若对存储格式在后续有新的需求，可以在完成导入后，通过创建新的附带存储格式的表，再执行insert overwrite table table_name_new select * from table_name_old;命令，完成Hive存储格式的转换；
对于数据完整性、一致性的考虑：可以在完成后再次执行count（*），校验数据量，此方法是为了避免出现因格式不同，忽略CSV首行字段问题，或者建表语句错误，剔除了有效数据导致数据缺失的危险行为。

上一篇：异步&线程池

下一篇：30天刷题挑战（二十）

热门推荐

01GitHub 镜像站点 022026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 03AI科技热点日报 | 2026年07月01日 04【AI】2026 年具身智能模型和世界模型总结 052026 AI 编程工具终极实战指南：Cursor vs Claude Code vs Copilot，开发者该怎么选？062026年6月AI大模型全景报告：GPT-5.6、Claude Opus 4.8、Gemini 3.5，中美AI三足鼎立谁主沉浮？072026 年 AI 大模型 & AI 编程工具实战全总结 08Claude Code、Codex、Cursor三分天下：2026年AI编程Agent生态全景剖析 09Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 102026年6月AI行业全景：从百模大战到Agent元年，这30天发生了什么？