Kafka因文件句柄数过多导致挂掉的排查与解决

一、问题现象

在k8s集群中部署了多个服务,包括Kafka、TDengine集群和Java等。这些服务使用NFS作为持久化存储方案。最近遇到了一个问题:Kafka频繁报错并最终挂掉。错误日志如下:

2025-02-09T09:39:07,022] INF0 [LogLoader partition=__consumer_offsets-7, dir=/bitnami/kafka/data] producer state recovery took oms 2025-02-09T09:39:07 ERROR Error while loading log dir /bitnami/kafka/data (kafka.log.LogManager) /bitnami/kafka/data/_consumer_offsets-7/00000000000000000000.timeindex (Too many open files in system)

从日志可以看出,Kafka在尝试加载日志目录时遇到Too many open files in system错误,这表明系统中的打开文件句柄数超过了限制。

二、初步排查

(一)检查句柄数限制

  1. 查看当前进程的句柄数限制
    • 使用命令ulimit -n来查看当前用户或进程的最大打开文件数限制。
  2. 检查系统级别的文件句柄使用情况
    • 通过cat /proc/sys/fs/file-nr可以获取系统当前已分配、已使用和最大可用的文件句柄数。

我们发现尽管Kafka已经挂掉,但句柄数占用仍然很大,这意味着可能存在某些资源未被正确释放的情况。

(二)定位占用句柄的进程

由于所有服务都使用了NFS远程挂载,因此怀疑可能是其他服务占用了大量句柄。通过以下步骤进行排查:

  • 在NFS服务器端,遍历各个进程的文件描述符:ls -l /proc/[pid]/fd | wc -l
  • 发现taosd(TDengine的服务进程)存在异常高的文件句柄占用。

三、原因分析与解决方案

经过与TDengine官方团队沟通,得知这是TDengine3.3.2.0的一个已知bug,并建议升级到最新版本3.3.5.2以解决问题。

四、总结与预防措施

(一)总结

本次故障的根本原因是TDengine服务中的一个bug导致其占用了过多的文件句柄,进而影响到了同处于NFS存储上的Kafka服务。通过对日志的详细分析以及对系统资源使用的深入排查,最终确定了问题所在并成功解决了问题。

(二)预防措施

  1. 定期更新组件版本:确保集群中的各个组件保持最新稳定版本,及时应用官方发布的补丁。
  2. 监控系统资源使用:建立完善的监控机制,特别是对于关键资源如文件句柄、内存等的监控,以便提前预警潜在问题。
  3. 优化配置参数 :根据实际业务需求合理调整相关服务的配置参数,例如适当增加ulimit值,但需注意不要设置得过高以免引发其他风险。

以上就是关于此次Kafka因文件句柄数过多导致挂掉的问题记录及解决方案分享,希望能给有类似困扰的朋友带来帮助。

相关推荐
陈果然DeepVersion1 小时前
Java大厂面试真题:Spring Boot+微服务+AI智能客服三轮技术拷问实录(四)
spring boot·redis·微服务·kafka·spring security·智能客服·java面试
小鹿学程序3 小时前
搭建hadoop集群
大数据·hadoop·分布式
web3.08889993 小时前
淘宝(全量)商品详情 API 的分布式请求调用实践
分布式
lijun_xiao20093 小时前
SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式-学习笔记-1
分布式·spring cloud·rabbitmq
二宝1524 小时前
黑马商城day8-ES01
分布式·微服务·架构
shepherd1264 小时前
破局延时任务(下):Spring Boot + DelayQueue 优雅实现分布式延时队列(实战篇)
java·spring boot·分布式
昊衡科技4 小时前
在多阶段松弛实验中使用分布式光纤传感量化局部和非局部岩石变形
分布式·分布式光纤传感·ofdr
陈果然DeepVersion5 小时前
Java大厂面试真题:Spring Boot+Kafka+AI智能客服场景全流程解析(七)
java·人工智能·spring boot·微服务·kafka·面试题·rag
夫唯不争,故无尤也7 小时前
分布式训练一站式入门:DP,DDP,DeepSpeed Zero Stage1/2/3(数据并行篇)
分布式
星哥说事8 小时前
分布式存储:Ceph、GlusterFS、MinIO架构与部署
分布式·ceph·架构