Debezium 同步 MySQL 实时数据并解决数据重复消费问题

我们使用 Debezium 实时同步一个 MySQL 的数据到另一个 MySQL,代码网上基本都有,都是在引入 debezium-api,debezium-embedded 后写 Java 代码,做好了基本配置后启动程序,Debezium 会自动读取 MySQL 的实时 binlog,然后触发相应的事件让我们处理,我们就把事件里的数据读取出来,插入到目标库即可。我们的 MySQL 的版本是 5.7 。

但我们在其中发现了一个很奇怪的问题,目标库存在多个相同的 sql ,我们以为是 Debezium 重复消费了 binlog 里的事件,就记录下每个事件的 position 并判重,但 sql 还是重复了,我们一开始觉得 MySQL 写的 binlog 肯定没问题,一个事务对应一个事件。之后我们使用 binlog2sql 这个 python 工具读取了已归档的 binlog 文件,发现里面没有重复的 sql ,这说明 MySQL binlog 还是没有问题的,问题在 Debezium,但 Debezium 作为一个成熟的 cdc 工具应该也不会有什么大的问题,可能是 Debezium 的配置问题,但检查了 Debezium 的所有配置后还是没发现有什么问题,配置改了后重新运行结果还是一样。 后面我们怀疑可能和 gtid 有关,我们发现 "Insert into xxx values (xxx) " 会产生一个 binlog 事件,因为一个事务会产生一个 binlog 事件,但 "Insert into xxx values (xxx),(xxx),(xxx)..." 会产生多个事件,但这些事件的 gtid 还是同一个,事件里的 query 属性还是同一个,事件的 query 属性即原始 sql ,这就破案了,我们一直消费每个事件的query,但可能多个事件里的 query 属性是一样的,因为它们的 gtid 属性相同,它们属于同一个全局事务。后面我们使用 gtid 过滤相同属性就解决了数据重复问题。至于为什么一个批量插入会产生一个多个事件,并且多个事件的 gtid 是同一个,我们猜测 MySQL 的 binlog 就是这样写日志的,修改一行数据就产生一个事件,要是批量修改就产生多个事件,但这些批量事件同属于一个全局事务。

怎么过滤重复 gtid 问题?因为 gtid 是递增的,相同的 gtid 都会一起出现,所以可以使用自动老元素的 Map,或是设置键过期的 redis,或是 带有 gtid 属性的数据库表,并设置它是唯一索引,或是插入数据之前先检查数据库里是否有本事件的gtid,有就跳过,没有就插入,并把这个过程加锁保证原子性。

核心代码:

java 复制代码
// 启动
DebeziumEngine<ChangeEvent<String, String>> engine = DebeziumEngine.create(Json.class)
                .using(config) 
                .notifying(DataSync::handleChangeEvent)
                .build();
        ExecutorService executor = Executors.newSingleThreadExecutor();
        executor.execute(engine);
java 复制代码
private static void handleChangeEvent(ChangeEvent<String, String> event) {
        JSONObject valueJson = JSON.parseObject(event.value());
        if (valueJson != null) {
            JSONObject payload = valueJson.getJSONObject("payload");
            JSONObject source = payload.getJSONObject("after");
            // 原始sql
            String query = source.getString("data_definition");
            // 对 sql 字符串进行美化
            query = query.replaceAll("[\\n\\r\\t\\s]+", " ");
      
            String database = source.getString("database");
            String table = source.getString("table_name");
            String gtid = source.getString("gtid");
            synchronized (lock) {
                // 查询数据库该 gtid 的数量
                long cnt = queryGtid(gtid);
                if (cnt == 0) {
                    // 如果数据库不存在该 sql 就插入
                    save(query, database, table, gtid);
                } else {
                    System.out.println(gtid + " 有重复");
                }
            } 
        }
    }
复制代码
        
相关推荐
陈天伟教授1 小时前
人工智能训练师认证教程(2)Python os入门教程
前端·数据库·python
陈文锦丫1 小时前
MQ的学习
java·开发语言
乌暮1 小时前
JavaEE初阶---线程安全问题
java·java-ee
爱笑的眼睛111 小时前
GraphQL:从数据查询到应用架构的范式演进
java·人工智能·python·ai
liwulin05061 小时前
【PYTHON-YOLOV8N】如何自定义数据集
开发语言·python·yolo
Seven971 小时前
剑指offer-52、正则表达式匹配
java
Elastic 中国社区官方博客2 小时前
Elasticsearch:在分析过程中对数字进行标准化
大数据·数据库·elasticsearch·搜索引擎·全文检索
聪明努力的积极向上2 小时前
【MYSQL】字符串拼接和参数化sql语句区别
数据库·sql·mysql
代码or搬砖2 小时前
RBAC(权限认证)小例子
java·数据库·spring boot
神仙别闹2 小时前
基于QT(C++)实现学本科教务系统(URP系统)
数据库·c++·qt