ETL工具之Streamsets实战系列(三) -- Mysql Binlog数据变更同步到目标库

1、业务背景

上一篇文章中,我们介绍了如何利用streamsets的组件实时采集https接口数据并入库的实现方案,本文我们将继续探讨streamsets的Mysql Binlog组件实现数据实时同步的强大功能。

日常开发中,我们经常会遇到数据同步的问题,比如两个不同的数据库实现数据的增量同步问题,对某张表的数据实时同步到另一个库的相同表;或者库中表的数据变更实时同步到redis中间件或者es( elasticsearch)服务,实现数据的实时同步,以便redis或es服务的数据不需要一行代码实现和数据库的实时同步等。

其实以上两种情况,对于库与库之间的数据同步,通过开启Mysql Binlog日志,加上一些中间件,比如阿里巴巴开源的的Canal增量订阅和消费组件也可以实现数据库的同步;另外对于和redis、es服务的同步问题,我们可以通过业务代码的形式,当数据变更时,同时更新数据到redis或者es服务,抑或通过消息中间件的发布订阅模式,通过监听方法,实现redis和es的数据同步。但是该方案一方面可能增加业务耦合或者需要编码方可实现,但是通过streamsets可以不用写一行业务代码实现数据同步的过程。

本文介绍下库与库之间的数据同步,下篇文章介绍下库与消息中间件之间的同步问题。

2、流程实现

数据变更实时同步时,流程的完整管道示意图如下所示:

具体实现按照以下步骤进行操作:

2.1 创建管道任务

在SDC中创建一个新的Pipeline,创建过程如下图

2.2 选择源并添加配置信息

Mysql Binlog组件的配置如下:

数据库用户名密码配置

2.3 流程选择器配置

该配置的作用是改变数据的目录结构,以便可以直接将数据写入下一个组件

2.4 目标源配置

配置数据库连接信息、库名和表名,此处表名位置使用了动态获取表名的方法。高级部分的配置使用默认值即可

配置目标源的数据库和密码

2.5 启动任务并测试

测试流程比较简单,我们只需要对源数据库的数据进行增删改操作,观察目标库的数据变化即可,此处不再具体演示,大家自行验证。

3、总结

在本文中,我们详细介绍了StreamSets组件实现数据实时同步的功能。作为一款强大的数据集成工具,StreamSets可以帮助企业快速、高效地实现数据的采集、处理和分析。如果这篇文章对你有所帮助的话,希望可以一键三连哦,您的认可和鼓励就是我创作的最大动力!

相关推荐
aiopencode2 分钟前
WebDebugX 如何助力跨平台 WebView 页面调试?开发者实战拆解
后端
大麦若叶茶10 分钟前
每天学习一点点之进程与线程、并行与并发
后端
可爱美少女11 分钟前
Kaggle-Predicting Optimal Fertilizers-(多分类+xgboost+同一特征值多样性)
人工智能·分类·数据挖掘
咸虾米16 分钟前
在uniCloud云对象内使用unipay的微信退款出现错误“uniPayCo.refund Error: token校验未通过”的解决方案
前端·后端
云胡16 分钟前
Mybatis Plus 自定义 SQL
后端
钡铼技术ARM工业边缘计算机38 分钟前
TI AM62x异构处理器边缘计算网关重构储能 EMS 智能化管理新生态
后端
bobz96540 分钟前
compile libvirt
后端
星星电灯猴1 小时前
iOS App安全实战:借助Ipa Guard提升应用抗逆向能力的开发者实用指南
后端
林鹿1 小时前
Dart: 串联多个数据流
后端·架构·dart
Java水解1 小时前
MySQL 分页查询优化
后端·mysql