Flink消费Kafka数据积压排查解决

0、背景

有个Flink任务每天不定时会出现数据积压,无论是白天还是数据量很少的夜里,且积压的数据量会越来越多,得不到缓解,只能每日在积压告警后重启,重启之后消费能力一点毛病没有,积压迅速缓解,然而问题会周而复始的出现,无论是周末还是节假日忍不了。

一、现象

1:当积压时,最明显的是kafka积压不断升高

  1. Flink ProcessFunction(主要处理逻辑)中多个代码块处理时间变长:

为了定位问题,在processFunction多个代码块加了处理时间的计算,结果发现,无论是简单的json处理部分还是与外部Redis,Mysql交互部分,都会有执行时间久的记录,另外这个任务Sink的地方是神策接口,接口设置的有超时时间,所以也会看到很多Sink TimeOut的记录。

二、解决过程

2.1 排查过程

1.调整读取kafka消息数量:

复制代码
ConsumerConfig.MAX_POLL_RECORDS_CONFIG,"300"

2.调整Sink端接口的超时时间等

  1. 调整任务资源

上面三个调整,前面两个没啥用,后面这个任务由原来一天一次不定时积压变成了2-3天积压。

虽然调整问题有所改善,但是还得找到真正的原因彻底解决,后面发现,当任务积压时,TaskManager所在的机器CPU会突然升高,且一直持续,直到任务重启。

2.2 问题解决

接下来就是分析CPU升高的原因,可以参考另外一篇博客线上java程序CPU占用过高问题排查_vioao的博客-CSDN博客_java程序cpu占用过高

去查看任务pid的一些相关信息,这里放两张图:

这么频繁的FGC,那问题就很明显了,FGC的时候,CPU升高,对应代码里CPU片段走到哪就停到哪,然后这一块的执行时间就变成,有的是5s,有的是15s

最后就是分析频繁FGC的原因,从上面第一张图也大概能看出来,ResultSetImpl是执行Mysql查询结果返回的对象类型,为了问题的排查,还是借助一下专业的工具

把内存文件dump下来分析一下。

排查代码,发现与外部Mysql交互的时候,前面开发的同学大意,没做close,好吧,加上吧。

java 复制代码
finally {
			if (rs != null) {
				try {
					rs.close();
				} catch (SQLException e) {
					// TODO Auto-generated catch block
					e.printStackTrace();
				}
			}
			if (prepStatement != null) {
				try {
					prepStatement.close();
				} catch (SQLException e) {
					// TODO Auto-generated catch block
					e.printStackTrace();
				}
			}
			if (conn != null) {
				try {
					conn.close();
				} catch (SQLException e) {
					// TODO Auto-generated catch block
					e.printStackTrace();
				}
			}
		}

参考资料:

1.《Flink 消费Kafka每日不定时积压(非重启不能解决)问题排查解决》

相关推荐
xlq2232215 小时前
43.线程同步
大数据·linux
只说证事15 小时前
CDA数据分析师适合在校生吗?什么时候准备更划算
大数据
DBA大董15 小时前
TDengine3.x 数据文件详解
大数据·linux·时序数据库·dba·tdengine
csgo打的菜又爱玩16 小时前
5.HeartbeatServices启动解析.md
大数据·flink·源代码管理
老神在在00116 小时前
商城系统(Mall)性能测试实战:从脚本搭建到结果分析
大数据·测试工具·jmeter·压力测试
亚马逊云开发者17 小时前
【Bedrock AgentCore】Multi-Agent 架构实战:用 6 个 Agent 打通零售供应链数据→洞察→行动全链路
大数据·架构·零售
岁岁种桃花儿17 小时前
面试全系列之【Kafka】之【经典版】系列
面试·职场和发展·kafka
Devin~Y17 小时前
从Spring Boot到Spring AI:音视频AIGC内容社区Java大厂面试三轮连环问(含Kafka/Redis/安全/可观测性答案)
java·spring boot·redis·spring cloud·kafka·spring security·resilience4j
renhongxia117 小时前
网络效应与大型语言模型辩论中的协议漂移
大数据·人工智能·机器学习·语言模型·自然语言处理·语音识别·xcode
CeshirenTester17 小时前
计算机专业找工作别再乱投:100家常见目标公司,先按赛道分清楚,然后闭眼冲!
大数据·人工智能