ETL工具之Streamsets实战系列(四) -- Mysql Binlog数据变更同步到Kafka

1、业务背景

上一篇文章中,我们介绍了如何实现数据库之间数据实时同步的问题,本文我们将继续探讨streamsets的Mysql Binlog组件将数据同步到消息中间件的流程。

日常开发中,我们的系统通常会使用redis服务作为缓存使用,抑或使用消息中间件进行数据存储,以便其他服务调用然后进行业务处理。

本文针对如上场景介绍下数据库与消息中间价kafka之间的数据同步问题,实现数据变更实时同步到kafka服务供其他服务调用消费。

注意:使用kafka进行存储时,需要安装好kafka服务,并提前创建好主题,以便kafka组件配置使用,此处不作详细介绍,自行实现。

2、流程实现

数据变更实时同步时,流程的完整管道示意图如下所示:

具体实现按照以下步骤进行操作:

2.1 创建管道任务

在SDC中创建一个新的Pipeline,创建过程如下图

2.2 选择源并添加配置信息

Mysql Binlog组件的配置如下:图中的server id要唯一,不能和已启动的Mysql binlog组件有冲突,否则启动报错

数据库用户名密码配置

2.3 目标源配置

kafka组件配置:Broker URI配置组件的ip和端口信息,比如ip:9092,Topic为消息主题,即将变更的数据记录到该主题以便消费

kafka高级部分的配置如下:此处配置kafka消息的key值

数据格式配置:此处采用默认数据格式即可,及json格式

2.4 启动任务并测试

测试流程比较简单,我们只需要对源数据库的数据进行增删改操作,观察kafka服务对应主题上的数据变化即可。

由于我的kafka服务是使用docker-compose安装的,服务启动的情况下,可以先进入容器,然后进入bin目录,如图所示

执行kafka-topics -list --zookeeper ip:2181命令查看当前有哪些主题

查看主题推送的信息,命令如下

kafka-console-consumer --bootstrap-server ip:9092 --topic 消息主题名称 --from-beginning

此时,我们往数据库新增一条数据,看下kafka中对应主题的消息推送情况

新增的数据如下:

主题实时推送的情况如下:

同理,我们也可以编辑或删除一些数据,查看主题的实时推送情况。

3、总结

在本文中,我们详细介绍了StreamSets组件实现数据实时同步到消息中间件的功能。如果这篇文章对你有所帮助的话,希望可以一键三连,您的认可和鼓励就是我创作的最大动力!

相关推荐
一只栖枝1 小时前
华为 HCIE 大数据认证中 Linux 命令行的运用及价值
大数据·linux·运维·华为·华为认证·hcie·it
uzong2 小时前
技术故障复盘模版
后端
GetcharZp3 小时前
基于 Dify + 通义千问的多模态大模型 搭建发票识别 Agent
后端·llm·agent
桦说编程3 小时前
Java 中如何创建不可变类型
java·后端·函数式编程
IT毕设实战小研3 小时前
基于Spring Boot 4s店车辆管理系统 租车管理系统 停车位管理系统 智慧车辆管理系统
java·开发语言·spring boot·后端·spring·毕业设计·课程设计
wyiyiyi4 小时前
【Web后端】Django、flask及其场景——以构建系统原型为例
前端·数据库·后端·python·django·flask
阿华的代码王国5 小时前
【Android】RecyclerView复用CheckBox的异常状态
android·xml·java·前端·后端
Jimmy5 小时前
AI 代理是什么,其有助于我们实现更智能编程
前端·后端·ai编程
喂完待续5 小时前
Apache Hudi:数据湖的实时革命
大数据·数据仓库·分布式·架构·apache·数据库架构
AntBlack5 小时前
不当韭菜V1.1 :增强能力 ,辅助构建自己的交易规则
后端·python·pyqt