大数据迁移工具开发思路

数据存储MySQL中,迁移到hive中,建立数据仓库,为后期的大数据分析、主题订阅、消息分发提供海量数据支持。

涉及到的服务及中间件版本如下:

1、MySQL,版本:8.0.19

2、Hive,版本:3.0.0

3、sqoop,版本sqoop-1.99.7

数据迁移过程分析

1、首先使用sqoop Java api将数据从MySQL中迁移到hdfs系的指定路径;

2、在利用hive 的load data命令迁移到hive指定库表中;

3、原MySQL中库表新增、修改、删除数据,则利用binglog监测功能,实时插入到hive对应表中。

难点分析

hive 中库表格式支持textfile(默认)、ORC、Parquet 、*Sequence,*但是只用ORC格式,支持数据的update、delete功能。

sqoop做数据迁移,outputFormat可选项只有TEXT_FILE、SEQUENCE_FILE、PARQUET_FILE格式。

那么如何讲MySQL库表读取数据,最终迁移到ORC格式hive库表中呢?

1、利用SQoop工具,将MySQL数据迁移到hdfs中,数据存储格式选择text_file;

2、利用hive的load data 命令,将数据迁移到hive的库表中,库表采用text_file格式;

3、利用hive同时支持text_file、ORC格式,不同格式库表之间的数据可以相互迁移的特性,采用"insert into table_ORC select * from table_text"语句插入数据,最后删除text_file中间表。

最终就实现了把数据从MySQL迁移到ORC格式数据仓库中的目的。

相关推荐
数据猿24 分钟前
【金猿CIO展】上海虹迪物流科技有限公司董事长兼CIO张鹏飞:聚焦数字化核心——物流供应链的的智慧演进之路
大数据·科技
deepdata_cn1 小时前
“深数据” vs “大数据”
大数据·bigdata·深数据·deepdata
数字化转型20253 小时前
SAP Signavio 在风机制造行业的深度应用研究
大数据·运维·人工智能
sheji34164 小时前
【开题答辩全过程】以 基于大数据的城市租房数据的分析与可视化为例,包含答辩的问题和答案
大数据
Biehmltym7 小时前
【AI】09AI Agent LLM → Streaming → Session 记录 的完整链路
大数据·人工智能·elasticsearch
Data-Miner8 小时前
精品PPT | 某制造集团灯塔工厂解决方案
大数据·人工智能·制造
小湘西8 小时前
Elasticsearch 的一些默认配置上下限
java·大数据·elasticsearch
`林中水滴`9 小时前
SeaTunnel vs Flume
大数据·flume
边缘计算社区9 小时前
第12届全球边缘计算大会-精彩瞬间
大数据·人工智能·边缘计算
Zoey的笔记本10 小时前
告别“人机混战”:如何用智能管控实现安全高效协同
大数据·人工智能