ETL工具之Streamsets实战系列(三) -- Mysql Binlog数据变更同步到目标库

1、业务背景

上一篇文章中,我们介绍了如何利用streamsets的组件实时采集https接口数据并入库的实现方案,本文我们将继续探讨streamsets的Mysql Binlog组件实现数据实时同步的强大功能。

日常开发中,我们经常会遇到数据同步的问题,比如两个不同的数据库实现数据的增量同步问题,对某张表的数据实时同步到另一个库的相同表;或者库中表的数据变更实时同步到redis中间件或者es( elasticsearch)服务,实现数据的实时同步,以便redis或es服务的数据不需要一行代码实现和数据库的实时同步等。

其实以上两种情况,对于库与库之间的数据同步,通过开启Mysql Binlog日志,加上一些中间件,比如阿里巴巴开源的的Canal增量订阅和消费组件也可以实现数据库的同步;另外对于和redis、es服务的同步问题,我们可以通过业务代码的形式,当数据变更时,同时更新数据到redis或者es服务,抑或通过消息中间件的发布订阅模式,通过监听方法,实现redis和es的数据同步。但是该方案一方面可能增加业务耦合或者需要编码方可实现,但是通过streamsets可以不用写一行业务代码实现数据同步的过程。

本文介绍下库与库之间的数据同步,下篇文章介绍下库与消息中间件之间的同步问题。

2、流程实现

数据变更实时同步时,流程的完整管道示意图如下所示:

具体实现按照以下步骤进行操作:

2.1 创建管道任务

在SDC中创建一个新的Pipeline,创建过程如下图

2.2 选择源并添加配置信息

Mysql Binlog组件的配置如下:

数据库用户名密码配置

2.3 流程选择器配置

该配置的作用是改变数据的目录结构,以便可以直接将数据写入下一个组件

2.4 目标源配置

配置数据库连接信息、库名和表名,此处表名位置使用了动态获取表名的方法。高级部分的配置使用默认值即可

配置目标源的数据库和密码

2.5 启动任务并测试

测试流程比较简单,我们只需要对源数据库的数据进行增删改操作,观察目标库的数据变化即可,此处不再具体演示,大家自行验证。

3、总结

在本文中,我们详细介绍了StreamSets组件实现数据实时同步的功能。作为一款强大的数据集成工具,StreamSets可以帮助企业快速、高效地实现数据的采集、处理和分析。如果这篇文章对你有所帮助的话,希望可以一键三连哦,您的认可和鼓励就是我创作的最大动力!

相关推荐
不会飞的鲨鱼2 分钟前
FastMoss 国际电商Tiktok数据分析 JS 逆向 | MD5加密
javascript·python·数据挖掘·数据分析
刘白Live4 分钟前
【Java】为什么有时候执行countDownLatch+线程池查询列表会丢失数据?
java·后端
梁凌锐40 分钟前
重构手法——代码健壮性增强类 | 防御性编程 | 引入特殊情况类
后端
蒋蜀黍1 小时前
Go + open ai 实现一个 mini manus
后端
白鲸开源1 小时前
【生产实践】Dolphinscheduler集群部署后Web控制台不能登录的问题解决了!
大数据
及丫丫1 小时前
SpringBoot集成MQTT客户端
后端
用户28988180666421 小时前
Sarama消费组初始化阻塞问题排查
后端·go
Java中文社群1 小时前
超实用!手把手教你Dify版本升级
人工智能·后端
大码猴1 小时前
是时候该用自动化工具玩玩12306了
前端·javascript·后端
Java水解1 小时前
MySQL如何开启远程访问权限
后端·mysql