大数据迁移工具开发思路

数据存储MySQL中,迁移到hive中,建立数据仓库,为后期的大数据分析、主题订阅、消息分发提供海量数据支持。

涉及到的服务及中间件版本如下:

1、MySQL,版本:8.0.19

2、Hive,版本:3.0.0

3、sqoop,版本sqoop-1.99.7

数据迁移过程分析

1、首先使用sqoop Java api将数据从MySQL中迁移到hdfs系的指定路径;

2、在利用hive 的load data命令迁移到hive指定库表中;

3、原MySQL中库表新增、修改、删除数据,则利用binglog监测功能,实时插入到hive对应表中。

难点分析

hive 中库表格式支持textfile(默认)、ORC、Parquet 、*Sequence,*但是只用ORC格式,支持数据的update、delete功能。

sqoop做数据迁移,outputFormat可选项只有TEXT_FILE、SEQUENCE_FILE、PARQUET_FILE格式。

那么如何讲MySQL库表读取数据,最终迁移到ORC格式hive库表中呢?

1、利用SQoop工具,将MySQL数据迁移到hdfs中,数据存储格式选择text_file;

2、利用hive的load data 命令,将数据迁移到hive的库表中,库表采用text_file格式;

3、利用hive同时支持text_file、ORC格式,不同格式库表之间的数据可以相互迁移的特性,采用"insert into table_ORC select * from table_text"语句插入数据,最后删除text_file中间表。

最终就实现了把数据从MySQL迁移到ORC格式数据仓库中的目的。

相关推荐
德昂信息dataondemand1 小时前
销售分析中的痛点与解决之道
大数据·数据分析
jkyy20141 小时前
健康监测驾驶系统赋能:解锁新能源汽车健康出行新场景
大数据·人工智能·物联网·健康医疗
归去来?2 小时前
记录一次从https接口提取25G大文件csv并落表的经历
大数据·数据仓库·hive·python·网络协议·5g·https
龙山云仓3 小时前
No131:AI中国故事-对话荀子——性恶论与AI约束:礼法并用、化性起伪与算法治理
大数据·人工智能·深度学习·算法·机器学习
2501_933670793 小时前
2026年中专大数据技术专业可考证书清单
大数据
九河云4 小时前
纺织印染“数字色差仪”:光谱+AI模型一次调色成功省染料12%
大数据·人工智能·安全·机器学习·数字化转型
2502_911679144 小时前
KEYSIGHT是德 N1912A功率计:宽带多通道功率测量的标杆之选
大数据·网络·信息与通信·信号处理
玄微云5 小时前
当暖心服务遇见硬核AI:玄微子AI让孕产关怀更有温度
大数据·人工智能·科技·物联网·产康门店
SeaTunnel5 小时前
Apache SeaTunnel MySQL CDC 支持按时间启动吗?
大数据·数据库·mysql·开源·apache·seatunnel
isNotNullX5 小时前
什么是可信数据空间?为什么可信数据空间是数据共享的关键?
大数据·人工智能·数据安全·数据空间