大数据迁移工具开发思路

数据存储MySQL中,迁移到hive中,建立数据仓库,为后期的大数据分析、主题订阅、消息分发提供海量数据支持。

涉及到的服务及中间件版本如下:

1、MySQL,版本:8.0.19

2、Hive,版本:3.0.0

3、sqoop,版本sqoop-1.99.7

数据迁移过程分析

1、首先使用sqoop Java api将数据从MySQL中迁移到hdfs系的指定路径;

2、在利用hive 的load data命令迁移到hive指定库表中;

3、原MySQL中库表新增、修改、删除数据,则利用binglog监测功能,实时插入到hive对应表中。

难点分析

hive 中库表格式支持textfile(默认)、ORC、Parquet 、*Sequence,*但是只用ORC格式,支持数据的update、delete功能。

sqoop做数据迁移,outputFormat可选项只有TEXT_FILE、SEQUENCE_FILE、PARQUET_FILE格式。

那么如何讲MySQL库表读取数据,最终迁移到ORC格式hive库表中呢?

1、利用SQoop工具,将MySQL数据迁移到hdfs中,数据存储格式选择text_file;

2、利用hive的load data 命令,将数据迁移到hive的库表中,库表采用text_file格式;

3、利用hive同时支持text_file、ORC格式,不同格式库表之间的数据可以相互迁移的特性,采用"insert into table_ORC select * from table_text"语句插入数据,最后删除text_file中间表。

最终就实现了把数据从MySQL迁移到ORC格式数据仓库中的目的。

相关推荐
zdkdchao1 小时前
hbase资源和数据权限控制
大数据·数据库·hbase
归去_来兮1 小时前
知识图谱技术概述
大数据·人工智能·知识图谱
青春之我_XP3 小时前
【基于阿里云搭建数据仓库(离线)】Data Studio创建资源与函数
大数据·数据仓库·sql·dataworks·maxcompute·data studio
Mikhail_G5 小时前
Python应用函数调用(二)
大数据·运维·开发语言·python·数据分析
黑客笔记6 小时前
攻防世界-XCTF-Web安全最佳刷题路线
大数据·安全·web安全
软件测试小仙女6 小时前
鸿蒙APP测试实战:从HDC命令到专项测试
大数据·软件测试·数据库·人工智能·测试工具·华为·harmonyos
Elastic 中国社区官方博客7 小时前
Elastic 获得 AWS 教育 ISV 合作伙伴资质,进一步增强教育解决方案产品组合
大数据·人工智能·elasticsearch·搜索引擎·云计算·全文检索·aws
反向跟单策略7 小时前
期货反向跟单运营逻辑推导思路
大数据·人工智能·数据分析·区块链
Tom Boom7 小时前
Git常用命令完全指南:从入门到精通
大数据·git·elasticsearch·docker·自动化测试框架
不吃饭的猪8 小时前
记一次spark在docker本地启动报错
大数据·docker·spark