Flink cdc如何只进行增量同步,不同步历史数据(只读取binlog)

环境

flink: 1.15.3

flink-connector-mysql-cdc: 2.4.0

场景:

mysql cdc到starrocks,

目前线上环境以及有老的任务在同步,现在升级了任务(旧checkpoints无法使用)旧表里面数据特别大,不方便重新同步

方案

思考:表里面的旧数据放着不动,只从binlog同步最新的数据。

解决

https://nightlies.apache.org/flink/flink-cdc-docs-master/zh/docs/connectors/mysql/

这是官网的解决办法,但是没有说参数设置在哪里。起初设置到debeziumProperties()里面是不生效的。

其实MySqlSourceBuilder是有一个方法特意指定startUP mode的

java 复制代码
MySqlSourceBuilder<String> builder = new MySqlSourceBuilder<>();

if (StringUtils.isNotBlank(latestOffset)){
     // 从最新的binlog同步
      builder.startupOptions(StartupOptions.latest());
 }

这样就可以了,重启任务不会读取历史数据。

最后(注意!!!)

执行过后请停止任务从最新的checkpoints恢复,或者记录好checkpoints。否则下次仍然指定这种模式会丢失数据的,还有指定了这个模式不要写死,否则checkpoints会失效的,用参数的方式传入!

相关推荐
jiaozi_zzq17 分钟前
2026年大数据与财务管理专业就业岗位全解析与进阶指南
大数据·数据分析·证书·财务
海南java第二人17 分钟前
Flink运行时组件深度解析:Java工程师的架构设计与实战指南
java·大数据·flink
WJX_KOI20 分钟前
保姆级教程:Apache Flink CDC(standalone 模式)部署 MySQL CDC、PostgreSQL CDC 及使用方法
java·大数据·mysql·postgresql·flink
AI实战架构笔记22 分钟前
大数据预测分析在房地产行业的市场动态监测
大数据·ai
实时数据41 分钟前
DPI深度数据包检测 监测用户浏览搜索行为 分析在线活动 频繁访问的购物网站或搜索的关键词 等判断其消费偏好
大数据·安全·big data
智慧化智能化数字化方案2 小时前
数据治理进阶——解读大数据治理主数据管理规划设计方案【附全文阅读】
大数据·数据治理·主数据管理规划
Hello.Reader2 小时前
Flink 大状态 Checkpoint 调优让 Checkpoint 跑得稳、恢复追得上
大数据·flink
是做服装的同学2 小时前
如何选择适合企业的优质服装软件ERP系统?
大数据·经验分享·其他
Elastic 中国社区官方博客2 小时前
Elasticsearch 9.3 增加 bfloat16 向量 支持
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
A小码哥2 小时前
Claude 今天发布了 Sonnet 4.6, 深度对比:sonnet vs Opus,如何选择最适合你的模型?
大数据·数据库·人工智能