Debezium 同步 MySQL 实时数据并解决数据重复消费问题

我们使用 Debezium 实时同步一个 MySQL 的数据到另一个 MySQL,代码网上基本都有,都是在引入 debezium-api,debezium-embedded 后写 Java 代码,做好了基本配置后启动程序,Debezium 会自动读取 MySQL 的实时 binlog,然后触发相应的事件让我们处理,我们就把事件里的数据读取出来,插入到目标库即可。我们的 MySQL 的版本是 5.7 。

但我们在其中发现了一个很奇怪的问题,目标库存在多个相同的 sql ,我们以为是 Debezium 重复消费了 binlog 里的事件,就记录下每个事件的 position 并判重,但 sql 还是重复了,我们一开始觉得 MySQL 写的 binlog 肯定没问题,一个事务对应一个事件。之后我们使用 binlog2sql 这个 python 工具读取了已归档的 binlog 文件,发现里面没有重复的 sql ,这说明 MySQL binlog 还是没有问题的,问题在 Debezium,但 Debezium 作为一个成熟的 cdc 工具应该也不会有什么大的问题,可能是 Debezium 的配置问题,但检查了 Debezium 的所有配置后还是没发现有什么问题,配置改了后重新运行结果还是一样。 后面我们怀疑可能和 gtid 有关,我们发现 "Insert into xxx values (xxx) " 会产生一个 binlog 事件,因为一个事务会产生一个 binlog 事件,但 "Insert into xxx values (xxx),(xxx),(xxx)..." 会产生多个事件,但这些事件的 gtid 还是同一个,事件里的 query 属性还是同一个,事件的 query 属性即原始 sql ,这就破案了,我们一直消费每个事件的query,但可能多个事件里的 query 属性是一样的,因为它们的 gtid 属性相同,它们属于同一个全局事务。后面我们使用 gtid 过滤相同属性就解决了数据重复问题。至于为什么一个批量插入会产生一个多个事件,并且多个事件的 gtid 是同一个,我们猜测 MySQL 的 binlog 就是这样写日志的,修改一行数据就产生一个事件,要是批量修改就产生多个事件,但这些批量事件同属于一个全局事务。

怎么过滤重复 gtid 问题?因为 gtid 是递增的,相同的 gtid 都会一起出现,所以可以使用自动老元素的 Map,或是设置键过期的 redis,或是 带有 gtid 属性的数据库表,并设置它是唯一索引,或是插入数据之前先检查数据库里是否有本事件的gtid,有就跳过,没有就插入,并把这个过程加锁保证原子性。

核心代码:

java 复制代码
// 启动
DebeziumEngine<ChangeEvent<String, String>> engine = DebeziumEngine.create(Json.class)
                .using(config) 
                .notifying(DataSync::handleChangeEvent)
                .build();
        ExecutorService executor = Executors.newSingleThreadExecutor();
        executor.execute(engine);
java 复制代码
private static void handleChangeEvent(ChangeEvent<String, String> event) {
        JSONObject valueJson = JSON.parseObject(event.value());
        if (valueJson != null) {
            JSONObject payload = valueJson.getJSONObject("payload");
            JSONObject source = payload.getJSONObject("after");
            // 原始sql
            String query = source.getString("data_definition");
            // 对 sql 字符串进行美化
            query = query.replaceAll("[\\n\\r\\t\\s]+", " ");
      
            String database = source.getString("database");
            String table = source.getString("table_name");
            String gtid = source.getString("gtid");
            synchronized (lock) {
                // 查询数据库该 gtid 的数量
                long cnt = queryGtid(gtid);
                if (cnt == 0) {
                    // 如果数据库不存在该 sql 就插入
                    save(query, database, table, gtid);
                } else {
                    System.out.println(gtid + " 有重复");
                }
            } 
        }
    }
复制代码
        
相关推荐
gma9993 分钟前
Etcd 框架
数据库·etcd
爱吃青椒不爱吃西红柿‍️5 分钟前
华为ASP与CSP是什么?
服务器·前端·数据库
凡人的AI工具箱9 分钟前
15分钟学 Go 第 60 天 :综合项目展示 - 构建微服务电商平台(完整示例25000字)
开发语言·后端·微服务·架构·golang
陈王卜12 分钟前
django+boostrap实现发布博客权限控制
java·前端·django
小码的头发丝、12 分钟前
Spring Boot 注解
java·spring boot
java亮小白199717 分钟前
Spring循环依赖如何解决的?
java·后端·spring
飞滕人生TYF23 分钟前
java Queue 详解
java·队列
chnming198725 分钟前
STL关联式容器之map
开发语言·c++
进击的六角龙26 分钟前
深入浅出:使用Python调用API实现智能天气预报
开发语言·python
檀越剑指大厂27 分钟前
【Python系列】浅析 Python 中的字典更新与应用场景
开发语言·python