ETL工具之Streamsets实战系列(四) -- Mysql Binlog数据变更同步到Kafka

1、业务背景

上一篇文章中,我们介绍了如何实现数据库之间数据实时同步的问题,本文我们将继续探讨streamsets的Mysql Binlog组件将数据同步到消息中间件的流程。

日常开发中,我们的系统通常会使用redis服务作为缓存使用,抑或使用消息中间件进行数据存储,以便其他服务调用然后进行业务处理。

本文针对如上场景介绍下数据库与消息中间价kafka之间的数据同步问题,实现数据变更实时同步到kafka服务供其他服务调用消费。

注意:使用kafka进行存储时,需要安装好kafka服务,并提前创建好主题,以便kafka组件配置使用,此处不作详细介绍,自行实现。

2、流程实现

数据变更实时同步时,流程的完整管道示意图如下所示:

具体实现按照以下步骤进行操作:

2.1 创建管道任务

在SDC中创建一个新的Pipeline,创建过程如下图

2.2 选择源并添加配置信息

Mysql Binlog组件的配置如下:图中的server id要唯一,不能和已启动的Mysql binlog组件有冲突,否则启动报错

数据库用户名密码配置

2.3 目标源配置

kafka组件配置:Broker URI配置组件的ip和端口信息,比如ip:9092,Topic为消息主题,即将变更的数据记录到该主题以便消费

kafka高级部分的配置如下:此处配置kafka消息的key值

数据格式配置:此处采用默认数据格式即可,及json格式

2.4 启动任务并测试

测试流程比较简单,我们只需要对源数据库的数据进行增删改操作,观察kafka服务对应主题上的数据变化即可。

由于我的kafka服务是使用docker-compose安装的,服务启动的情况下,可以先进入容器,然后进入bin目录,如图所示

执行kafka-topics -list --zookeeper ip:2181命令查看当前有哪些主题

查看主题推送的信息,命令如下

kafka-console-consumer --bootstrap-server ip:9092 --topic 消息主题名称 --from-beginning

此时,我们往数据库新增一条数据,看下kafka中对应主题的消息推送情况

新增的数据如下:

主题实时推送的情况如下:

同理,我们也可以编辑或删除一些数据,查看主题的实时推送情况。

3、总结

在本文中,我们详细介绍了StreamSets组件实现数据实时同步到消息中间件的功能。如果这篇文章对你有所帮助的话,希望可以一键三连,您的认可和鼓励就是我创作的最大动力!

相关推荐
SelectDB技术团队2 分钟前
Apache Doris 2025 Roadmap:构建 GenAI 时代实时高效统一的数据底座
大数据·数据库·数据仓库·人工智能·ai·数据分析·湖仓一体
你觉得20520 分钟前
浙江大学朱霖潮研究员:《人工智能重塑科学与工程研究》以蛋白质结构预测为例|附PPT下载方法
大数据·人工智能·机器学习·ai·云计算·aigc·powerpoint
uhakadotcom31 分钟前
OpenTelemetry入门:让你的应用程序更透明
后端·面试·github
益莱储中国36 分钟前
世界通信大会、嵌入式展及慕尼黑上海光博会亮点回顾
大数据
橘猫云计算机设计39 分钟前
基于springboot的考研成绩查询系统(源码+lw+部署文档+讲解),源码可白嫖!
java·spring boot·后端·python·考研·django·毕业设计
有一只柴犬1 小时前
深入Spring AI:6大核心概念带你入门AI开发
spring boot·后端
Aurora_NeAr1 小时前
深入理解Java虚拟机-垃圾收集器与内存分配策略
后端
向阳2561 小时前
SpringBoot+vue前后端分离整合sa-token(无cookie登录态 & 详细的登录流程)
java·vue.js·spring boot·后端·sa-token·springboot·登录流程
Loving_enjoy1 小时前
基于Hadoop的明星社交媒体影响力数据挖掘平台:设计与实现
大数据·hadoop·数据挖掘
你的人类朋友1 小时前
JS严格模式,启动!
javascript·后端·node.js