排查Flink状态膨胀导致Checkpoint超时的问题

记录一次问题解决的过程。

生产中有个设备运行状态持续时间计算的任务,当设备的数据量由1000+加到8000+,每秒采集一次的设备的状态和各项指标发送到kafka给到flink进行处理。状态持续时间计算的算子中状态的checkpoint频繁超时,监控显示当个TaskManager的状态达2G,RocksDB的写入延迟飙升到几百毫秒。业务方反馈统计滞后越来越严重。

  1. 定位根因 :通过Flink UI中的SubTask分析State Size,发现MapState占了90%的状态量。检查代码发现,每次状态变更都追加时间戳,但从未清理过期数据------实际上只需要知道当前状态的开始时间,完全不需要保存历史时间戳。

  2. 重构状态结构 :将MapState<Long, Long>改为ValueState<StatusRecord>,其中StatusRecord只存两个字段:currentStatusstatusStartTime。这样每个设备只存一个对象,状态量从每台上千个时间戳骤降到1个。

  3. 设置TTL :使用StateTtlConfigValueState设置24小时TTL,并将cleanupStrategies设为基于RocksDB的Compaction过滤,避免由于惰性清理导致状态无限残留。

  4. 优化RocksDB参数 :将state.backend.rocksdb.writebuffer.size从32MB调到64MB,开启增量Checkpoint,缩短快照时间。

通过修改以上参数,重启flink集群及任务后,问题得到了解决。

相关推荐
数智化精益手记局1 小时前
什么是安全生产?解读安全生产的基本方针与核心要求
大数据·运维·人工智能·安全·信息可视化·自动化·精益工程
一个程序猿老马2 小时前
013、推送与拉取:git push与git pull的协作流程
大数据·git·elasticsearch
Rubin智造社2 小时前
04月25日AI每日参考:谷歌豪掷400亿押注Anthropic,DeepSeek V4横空出世
大数据·人工智能·物联网·comfyui·deepseek v4·谷歌anthropic投资·meta亚马逊芯片
身如柳絮随风扬2 小时前
Flink 从零到一:核心概念、架构与实战详解
架构·flink
递归尽头是星辰2 小时前
数仓架构分层视角下的 Flink 多流关联剖析
flink·实时数仓·union·多流关联·大数据实时计算
冯RI375II694872 小时前
儿童牙胶CPSC和FDA认证的测试费用大概是多少?
大数据
企业架构师老王3 小时前
药品生产环节:用实在Agent自动生成批记录与打印领料单的合规设计与架构落地
大数据·人工智能·ai·架构
黎阳之光3 小时前
视频孪生重构轨交数字孪生新范式|黎阳之光以自主核心技术破解落地难题
大数据·人工智能·算法·安全·数字孪生
大大大大晴天️3 小时前
Flink技术实践-监控指标异常诊断与运维
大数据·运维·flink