本文整理 Flink 生产级容错方案,学会保障线上实时任务稳定运行,避免数据异常问题。
一、实时任务宕机问题
线上 Flink 任务长期 7*24 小时运行,服务器异常、程序报错容易宕机,易出现数据丢失、重复计算。
二、Checkpoint 检查点核心作用
周期性自动保存 Flink 所有状态数据与消费偏移量,任务重启后自动恢复数据,实现精准一次性消费。
三、Checkpoint 核心配置
开启检查点、设置检查点间隔时间
设置检查点存储位置、并行快照配置
Exactly-Once、At-Least-Once 语义区别与选择
四、Savepoint 手动保存点
手动触发状态保存,用于任务升级、版本迭代、业务逻辑修改,平稳重启任务不丢数据。
五、生产环境容错最佳实践
线上任务必开配置参数,检查点清理策略、状态过期清理配置