Flink cdc如何只进行增量同步,不同步历史数据(只读取binlog)

环境

flink: 1.15.3

flink-connector-mysql-cdc: 2.4.0

场景:

mysql cdc到starrocks,

目前线上环境以及有老的任务在同步,现在升级了任务(旧checkpoints无法使用)旧表里面数据特别大,不方便重新同步

方案

思考:表里面的旧数据放着不动,只从binlog同步最新的数据。

解决

https://nightlies.apache.org/flink/flink-cdc-docs-master/zh/docs/connectors/mysql/

这是官网的解决办法,但是没有说参数设置在哪里。起初设置到debeziumProperties()里面是不生效的。

其实MySqlSourceBuilder是有一个方法特意指定startUP mode的

java 复制代码
MySqlSourceBuilder<String> builder = new MySqlSourceBuilder<>();

if (StringUtils.isNotBlank(latestOffset)){
     // 从最新的binlog同步
      builder.startupOptions(StartupOptions.latest());
 }

这样就可以了,重启任务不会读取历史数据。

最后(注意!!!)

执行过后请停止任务从最新的checkpoints恢复,或者记录好checkpoints。否则下次仍然指定这种模式会丢失数据的,还有指定了这个模式不要写死,否则checkpoints会失效的,用参数的方式传入!

相关推荐
财迅通Ai2 小时前
卫星化学一季度净利同比增34.97% 海外业务高增叠加价差走阔创盈利新高
大数据·人工智能·卫星化学
动恰客流管家2 小时前
动恰3DV3丨展会客流统计解决方案:3D视觉技术赋能会展行业智慧化运营升级
大数据·数据结构·人工智能
juniperhan3 小时前
Flink 系列第9篇:Flink 重启策略详解
java·大数据·数据仓库·flink
ModelWhale3 小时前
从“社区”到“生态”:和鲸科技CEO范向伟在InnovateX大赛揭示OPC孵化“正确路径”
大数据·人工智能·科技
Cx330❀3 小时前
线程进阶实战:资源划分与线程控制核心指南
java·大数据·linux·运维·服务器·开发语言·搜索引擎
xiaoduo AI3 小时前
客服机器人知识库多久更新一次?智能 Agent 自动爬取新问答,过期话术能否及时淘汰?
大数据·人工智能·机器人
狂奔蜗牛飙车3 小时前
精准分工:云南省中职大数据赛项(3 人团队)
大数据·中职组大数据应用与服务赛项·大数据应用与服务·竞赛指南·大数据入门指南
AI先驱体验官3 小时前
BotCash:AI智能体变现从小 Demo 到商业产品的距离
大数据·人工智能·深度学习·重构·aigc
AcrelGHP3 小时前
安科瑞AIM-T系列工业IT绝缘监测及故障定位解决方案为关键供电场所筑牢安全防线
大数据·运维·数据库
csgo打的菜又爱玩3 小时前
2.Flink RPC通信流程解析
大数据·rpc·flink