Debezium 同步 MySQL 实时数据并解决数据重复消费问题

我们使用 Debezium 实时同步一个 MySQL 的数据到另一个 MySQL,代码网上基本都有,都是在引入 debezium-api,debezium-embedded 后写 Java 代码,做好了基本配置后启动程序,Debezium 会自动读取 MySQL 的实时 binlog,然后触发相应的事件让我们处理,我们就把事件里的数据读取出来,插入到目标库即可。我们的 MySQL 的版本是 5.7 。

但我们在其中发现了一个很奇怪的问题,目标库存在多个相同的 sql ,我们以为是 Debezium 重复消费了 binlog 里的事件,就记录下每个事件的 position 并判重,但 sql 还是重复了,我们一开始觉得 MySQL 写的 binlog 肯定没问题,一个事务对应一个事件。之后我们使用 binlog2sql 这个 python 工具读取了已归档的 binlog 文件,发现里面没有重复的 sql ,这说明 MySQL binlog 还是没有问题的,问题在 Debezium,但 Debezium 作为一个成熟的 cdc 工具应该也不会有什么大的问题,可能是 Debezium 的配置问题,但检查了 Debezium 的所有配置后还是没发现有什么问题,配置改了后重新运行结果还是一样。 后面我们怀疑可能和 gtid 有关,我们发现 "Insert into xxx values (xxx) " 会产生一个 binlog 事件,因为一个事务会产生一个 binlog 事件,但 "Insert into xxx values (xxx),(xxx),(xxx)..." 会产生多个事件,但这些事件的 gtid 还是同一个,事件里的 query 属性还是同一个,事件的 query 属性即原始 sql ,这就破案了,我们一直消费每个事件的query,但可能多个事件里的 query 属性是一样的,因为它们的 gtid 属性相同,它们属于同一个全局事务。后面我们使用 gtid 过滤相同属性就解决了数据重复问题。至于为什么一个批量插入会产生一个多个事件,并且多个事件的 gtid 是同一个,我们猜测 MySQL 的 binlog 就是这样写日志的,修改一行数据就产生一个事件,要是批量修改就产生多个事件,但这些批量事件同属于一个全局事务。

怎么过滤重复 gtid 问题?因为 gtid 是递增的,相同的 gtid 都会一起出现,所以可以使用自动老元素的 Map,或是设置键过期的 redis,或是 带有 gtid 属性的数据库表,并设置它是唯一索引,或是插入数据之前先检查数据库里是否有本事件的gtid,有就跳过,没有就插入,并把这个过程加锁保证原子性。

核心代码:

java 复制代码
// 启动
DebeziumEngine<ChangeEvent<String, String>> engine = DebeziumEngine.create(Json.class)
                .using(config) 
                .notifying(DataSync::handleChangeEvent)
                .build();
        ExecutorService executor = Executors.newSingleThreadExecutor();
        executor.execute(engine);
java 复制代码
private static void handleChangeEvent(ChangeEvent<String, String> event) {
        JSONObject valueJson = JSON.parseObject(event.value());
        if (valueJson != null) {
            JSONObject payload = valueJson.getJSONObject("payload");
            JSONObject source = payload.getJSONObject("after");
            // 原始sql
            String query = source.getString("data_definition");
            // 对 sql 字符串进行美化
            query = query.replaceAll("[\\n\\r\\t\\s]+", " ");
      
            String database = source.getString("database");
            String table = source.getString("table_name");
            String gtid = source.getString("gtid");
            synchronized (lock) {
                // 查询数据库该 gtid 的数量
                long cnt = queryGtid(gtid);
                if (cnt == 0) {
                    // 如果数据库不存在该 sql 就插入
                    save(query, database, table, gtid);
                } else {
                    System.out.println(gtid + " 有重复");
                }
            } 
        }
    }
复制代码
        
相关推荐
ps酷教程7 小时前
Jackson 解决没有无参构造函数的反序列化问题
java
NiceCloud喜云7 小时前
Opus 4.8 的 Effort Control 怎么选:Low 到 Max 五档策略
android·java·大数据·前端·c++·python·spring
ccddsdsdfsdf7 小时前
DBeaver怎么链接mongoDB
数据库·mongodb
AI玫瑰助手7 小时前
Python函数:默认参数的定义与注意事项
开发语言·python·信息可视化
油炸自行车7 小时前
Claude Code 错误:API Error: 400 Failed to deserialize the JSON body into the
开发语言·javascript·json·trae·claude code·api error 400
肩上风骋8 小时前
C++14特性
开发语言·c++·c++14特性
_日拱一卒8 小时前
LeetCode:994腐烂的橘子
java·数据结构·算法·leetcode·深度优先
隔窗听雨眠8 小时前
Nginx网关响应慢排查手记
java·服务器·nginx
丷丩8 小时前
Postgresql基础实践教程(十一)各种Join
数据库·postgresql·join
星夜夏空998 小时前
FreeRTOS学习(4)——内存映射
数据库·学习·mongodb