大数据迁移工具开发思路

数据存储MySQL中,迁移到hive中,建立数据仓库,为后期的大数据分析、主题订阅、消息分发提供海量数据支持。

涉及到的服务及中间件版本如下:

1、MySQL,版本:8.0.19

2、Hive,版本:3.0.0

3、sqoop,版本sqoop-1.99.7

数据迁移过程分析

1、首先使用sqoop Java api将数据从MySQL中迁移到hdfs系的指定路径;

2、在利用hive 的load data命令迁移到hive指定库表中;

3、原MySQL中库表新增、修改、删除数据,则利用binglog监测功能,实时插入到hive对应表中。

难点分析

hive 中库表格式支持textfile(默认)、ORC、Parquet 、*Sequence,*但是只用ORC格式,支持数据的update、delete功能。

sqoop做数据迁移,outputFormat可选项只有TEXT_FILE、SEQUENCE_FILE、PARQUET_FILE格式。

那么如何讲MySQL库表读取数据,最终迁移到ORC格式hive库表中呢?

1、利用SQoop工具,将MySQL数据迁移到hdfs中,数据存储格式选择text_file;

2、利用hive的load data 命令,将数据迁移到hive的库表中,库表采用text_file格式;

3、利用hive同时支持text_file、ORC格式,不同格式库表之间的数据可以相互迁移的特性,采用"insert into table_ORC select * from table_text"语句插入数据,最后删除text_file中间表。

最终就实现了把数据从MySQL迁移到ORC格式数据仓库中的目的。

相关推荐
第二只羽毛2 分钟前
C++ 高并发内存池2
大数据·开发语言·jvm·c++·c#
matlabgoodboy25 分钟前
Python代做java代码编写C++大数据R语言Hadoop/spark/flink/C语言
java·大数据·python
阳艳讲ai26 分钟前
企业AI培训评测:线下课vs线上营vs陪跑服务,谁能让员工真学会AI?附ROI选型指南
大数据·人工智能·数据挖掘
蓝策电子30 分钟前
蓝牙AoA技术如何实现智慧机场人员与资产管控
大数据·经验分享·物联网·信息可视化·智慧城市
Th133607043 分钟前
B端拓客号码核验行业现状:困局破解与价值重构,氪迹科技法人股东号码核验筛选系统,阶梯式价格
大数据·重构
Elastic 中国社区官方博客1 小时前
使用 TypeScript 创建 Elasticsearch MCP 服务器
大数据·服务器·数据库·人工智能·elasticsearch·搜索引擎·全文检索
Meya11271 小时前
告别机房 U 位管理内耗!这套系统让运维效率直接拉满 ✨
大数据·运维·人工智能
逸Y 仙X1 小时前
文章十三:ElasticSearch数据更新实战
java·大数据·elasticsearch·搜索引擎·jenkins
AC赳赳老秦1 小时前
OpenClaw SEO写手Agent实操:生成结构化文章,适配CSDN搜索规则
大数据·人工智能·python·搜索引擎·去中心化·deepseek·openclaw
无忧.芙桃1 小时前
基础开发工具(下)
大数据·elasticsearch·搜索引擎