阿里云kafka消息写入topic失败

1. 问题现象描述

20240918,14:22,测试反馈说kafka有问题,生产者写入消息的时候报错,并发了一张日志截图,主要报错如下:

to topic xxxx: org.apache.kafka.common.errors.TimeoutException: Expiring 1 record(s) for xxxx-0:120000 ms has passed since batch creation。

The cloud topic xxxx-0 dose not support idempotent and transaction, please use the local topic

第一条报错的大概意思是写入超时,也就是网络有问题。第二条报错是说topic不支持幂等和事务,请使用本地topic。

2. 排查过程

2.1 检查网络环境

这个kafka实例是用的阿里云的,服务和配置我都检查过,一个多月没改动了,但还是根据报错检查一下,我先自行在pod中telnet了一下kafka实例的地址,检查了白名单,随后又按照阿里云官方提供的检查方式,检查了网络、生产、消费等方面,都显示正常。

2.2 检查kafka topic存储类型

阿里云上的kafka,创建topic时,可选的存储是云存储和local存储,我这边所有的topic默认都是使用的云存储,但是根据云厂商的回复,客户端版本如果使用3.0及以上的话,是没有办法使用幂等的,就会导致消息发送失败,刚好我问了一下开发,说用的是3.7.1,但开发说已经关闭了幂等功能。

好吧,到这里排查不下去了,准备抓包。

2.3 测试写入其他topic

这里让开发改了一下代码,看看写入其他topic是否正常,测试结果没问题,写其他topic能写。

2.4 抓包

这里把版本回滚到了消息写入异常的这一版,pod中用tcpdump 抓和kafka通信的包,让开发手动触发消息写入,报文截图如下:

可以看到上面kafka客户端版本是3.7.0,我寻思这跟开发说的一不一样的,于是把版本发到能够正常写入消息的这一版,继续抓包,报文如下:

新发现,能写的这个客户端是3.7.1,随后反馈给开发。

3. 问题原因

最后跟开发沟通,是因为他在3.7.1这个客户端版本,关闭了使用幂等功能,所以消息能写了,其实不换客户端版本也没关系。

最后问开发老版本3.7.0是不是没关使用幂等,开发说不记得了,我服了!

相关推荐
一个儒雅随和的男子14 分钟前
kafka消息中间件的rebalance机制
分布式·kafka
小技工丨44 分钟前
Flink SQL 读取 Kafka 数据到 Mysql 实战
sql·flink·kafka
skywalk81631 小时前
蓝破云可以实现500M以下文件的百度云到阿里云的转存的云计算服务平台(大约每天50个的限制)
阿里云·云计算·百度云
BAStriver12 小时前
关于kafka常见的问题小结
分布式·kafka
HappyChan16 小时前
kakfa生产者消费者实践
云原生·kafka·go
凯子坚持 c18 小时前
深度体验阿里云操作系统控制台
数据库·阿里云·云计算
auspicious航21 小时前
Linux系统上安装kafka
linux·运维·kafka
源代码杀手1 天前
利用阿里云Atlas地区选择器与Plotly.js实现数据可视化与交互
javascript·阿里云·plotly
fxrz121 天前
探讨消息队列系统:AWS SQS vs. Apache Kafka
kafka·apache·aws
小小工匠2 天前
Kafka - 高吞吐量的七项核心设计解析
kafka·高吞吐量