Debezium 同步 MySQL 实时数据并解决数据重复消费问题

我们使用 Debezium 实时同步一个 MySQL 的数据到另一个 MySQL,代码网上基本都有,都是在引入 debezium-api,debezium-embedded 后写 Java 代码,做好了基本配置后启动程序,Debezium 会自动读取 MySQL 的实时 binlog,然后触发相应的事件让我们处理,我们就把事件里的数据读取出来,插入到目标库即可。我们的 MySQL 的版本是 5.7 。

但我们在其中发现了一个很奇怪的问题,目标库存在多个相同的 sql ,我们以为是 Debezium 重复消费了 binlog 里的事件,就记录下每个事件的 position 并判重,但 sql 还是重复了,我们一开始觉得 MySQL 写的 binlog 肯定没问题,一个事务对应一个事件。之后我们使用 binlog2sql 这个 python 工具读取了已归档的 binlog 文件,发现里面没有重复的 sql ,这说明 MySQL binlog 还是没有问题的,问题在 Debezium,但 Debezium 作为一个成熟的 cdc 工具应该也不会有什么大的问题,可能是 Debezium 的配置问题,但检查了 Debezium 的所有配置后还是没发现有什么问题,配置改了后重新运行结果还是一样。 后面我们怀疑可能和 gtid 有关,我们发现 "Insert into xxx values (xxx) " 会产生一个 binlog 事件,因为一个事务会产生一个 binlog 事件,但 "Insert into xxx values (xxx),(xxx),(xxx)..." 会产生多个事件,但这些事件的 gtid 还是同一个,事件里的 query 属性还是同一个,事件的 query 属性即原始 sql ,这就破案了,我们一直消费每个事件的query,但可能多个事件里的 query 属性是一样的,因为它们的 gtid 属性相同,它们属于同一个全局事务。后面我们使用 gtid 过滤相同属性就解决了数据重复问题。至于为什么一个批量插入会产生一个多个事件,并且多个事件的 gtid 是同一个,我们猜测 MySQL 的 binlog 就是这样写日志的,修改一行数据就产生一个事件,要是批量修改就产生多个事件,但这些批量事件同属于一个全局事务。

怎么过滤重复 gtid 问题?因为 gtid 是递增的,相同的 gtid 都会一起出现,所以可以使用自动老元素的 Map,或是设置键过期的 redis,或是 带有 gtid 属性的数据库表,并设置它是唯一索引,或是插入数据之前先检查数据库里是否有本事件的gtid,有就跳过,没有就插入,并把这个过程加锁保证原子性。

核心代码:

java 复制代码
// 启动
DebeziumEngine<ChangeEvent<String, String>> engine = DebeziumEngine.create(Json.class)
                .using(config) 
                .notifying(DataSync::handleChangeEvent)
                .build();
        ExecutorService executor = Executors.newSingleThreadExecutor();
        executor.execute(engine);
java 复制代码
private static void handleChangeEvent(ChangeEvent<String, String> event) {
        JSONObject valueJson = JSON.parseObject(event.value());
        if (valueJson != null) {
            JSONObject payload = valueJson.getJSONObject("payload");
            JSONObject source = payload.getJSONObject("after");
            // 原始sql
            String query = source.getString("data_definition");
            // 对 sql 字符串进行美化
            query = query.replaceAll("[\\n\\r\\t\\s]+", " ");
      
            String database = source.getString("database");
            String table = source.getString("table_name");
            String gtid = source.getString("gtid");
            synchronized (lock) {
                // 查询数据库该 gtid 的数量
                long cnt = queryGtid(gtid);
                if (cnt == 0) {
                    // 如果数据库不存在该 sql 就插入
                    save(query, database, table, gtid);
                } else {
                    System.out.println(gtid + " 有重复");
                }
            } 
        }
    }
复制代码
        
相关推荐
jasmine s几秒前
Pandas
开发语言·python
White_Mountain6 分钟前
在Ubuntu中配置mysql,并允许外部访问数据库
数据库·mysql·ubuntu
Code apprenticeship7 分钟前
怎么利用Redis实现延时队列?
数据库·redis·缓存
百度智能云技术站10 分钟前
广告投放系统成本降低 70%+,基于 Redis 容量型数据库 PegaDB 的方案设计和业务实践
数据库·redis·oracle
装不满的克莱因瓶13 分钟前
【Redis经典面试题六】Redis的持久化机制是怎样的?
java·数据库·redis·持久化·aof·rdb
n北斗20 分钟前
常用类晨考day15
java
biomooc21 分钟前
R 语言 | 绘图的文字格式(绘制上标、下标、斜体、文字标注等)
开发语言·r语言
骇客野人23 分钟前
【JAVA】JAVA接口公共返回体ResponseData封装
java·开发语言
black^sugar25 分钟前
纯前端实现更新检测
开发语言·前端·javascript
404NooFound30 分钟前
Python轻量级NoSQL数据库TinyDB
开发语言·python·nosql