Flink cdc如何只进行增量同步,不同步历史数据(只读取binlog)

环境

flink: 1.15.3

flink-connector-mysql-cdc: 2.4.0

场景:

mysql cdc到starrocks,

目前线上环境以及有老的任务在同步,现在升级了任务(旧checkpoints无法使用)旧表里面数据特别大,不方便重新同步

方案

思考:表里面的旧数据放着不动,只从binlog同步最新的数据。

解决

https://nightlies.apache.org/flink/flink-cdc-docs-master/zh/docs/connectors/mysql/

这是官网的解决办法,但是没有说参数设置在哪里。起初设置到debeziumProperties()里面是不生效的。

其实MySqlSourceBuilder是有一个方法特意指定startUP mode的

java 复制代码
MySqlSourceBuilder<String> builder = new MySqlSourceBuilder<>();

if (StringUtils.isNotBlank(latestOffset)){
     // 从最新的binlog同步
      builder.startupOptions(StartupOptions.latest());
 }

这样就可以了,重启任务不会读取历史数据。

最后(注意!!!)

执行过后请停止任务从最新的checkpoints恢复,或者记录好checkpoints。否则下次仍然指定这种模式会丢失数据的,还有指定了这个模式不要写死,否则checkpoints会失效的,用参数的方式传入!

相关推荐
企业架构师老王16 分钟前
注册审批申报材料自动校验:如何利用实在Agent构建非侵入式架构并降低数据误报率?
大数据·人工智能·ai·架构
JZC_xiaozhong1 小时前
连锁餐饮企业如何统一ERP、WMS、BOH多系统权限?一套可落地的IAM架构方案
大数据·数据库·架构·iam·企业数据安全·数据集成与应用集成·多系统权限管理
小赖同学啊1 小时前
项目管理的AI转型
大数据·人工智能
财迅通Ai1 小时前
产能释放驱动增长,逸豪新材2026Q1扭亏为盈
大数据·人工智能·逸豪新材
数字时代全景窗2 小时前
智能体架构进化路线:从Manus、OpenClaw到Evolver——与Palantir本体架构的比较研究
大数据·人工智能·架构·软件工程
JGDT_2 小时前
直播回顾2|底层逻辑重构:AI驱动下的财务工作五大范式转移
大数据·人工智能·系统架构·系统安全·软件工程
NOCSAH2 小时前
统好 AI 驱动产业革新,以数智一体化实现高效经营
大数据·人工智能
运维小欣2 小时前
2026可观测平台厂商推荐:聚焦智能化与场景化落地的选型指南
大数据·人工智能
小研说技术2 小时前
Spring AI Alibaba如何让AI学会专业本领
大数据·人工智能·spring
快乐非自愿3 小时前
SpringAI入门指南
大数据·人工智能·spring