RocketMQ5.0 线上集群部署一定要注意这个OOM问题

这里是weihubeats ,觉得文章不错可以关注公众号小奏技术,文章首发。拒绝营销号,拒绝标题党

RocketMQ 版本

  • 5.1.0

背景

测试环境的RocketMQ总会在运行一段时间后,莫名其妙就挂掉,刚开始以为就是简单的内存不够导致的

因为测试环境给的资源不多,但是时间久了总需要重启也麻烦。总会影响测试环境,所以打算排查一下解决掉。

增加内存

开始的解决方式是增加内存,由原先的4g增加到8g,结果还是OOM,这里就怀疑可能是RocketMQ有bug导致的

OOM log分析

RocketMQ的OOM log默认是保存在distribution/target/rocketmq-xxx/rocketmq-xxx目录下

文件名称hs_err_pid1879893.log

这里给大家推荐一个OOM的log分析平台,目前是免费的

gceasy.io/?tdsourceta...

我们在Active Thread中看到所有的线程数有32380个线程,明显是不正常的

看样子还想继续增加,所以很明显就是RocketMQbug

那么为什么会创建如此多的FlowMonitor线程呢

问题定位

首先我们看看是哪里创建FlowMonitor这个线程的

可以看到主要是在创建AutoSwitchHAConnection对象的时候对FlowMonitor对象进行创建的,这里的FlowMonitor线程还没有启动

何时创建AutoSwitchHAConnection

跟随代码我们可以很快发现是在NIOSelector接受网络请求的时候就会创建一个AutoSwitchHAConnection

创建完AutoSwitchHAConnection会执行conn.start();

其中start就会启动flowMonitor线程

我们查看masterslave的log也能看到masterslave有大量的连接log

  • master
java 复制代码
2023-09-13 20:31:15 INFO AutoSwitchAcceptSocketService - HAService receive new connection, /192.168.1.172:56700
2023-09-13 20:31:22 INFO AutoSwitchAcceptSocketService - HAService receive new connection, /192.168.1.172:56714
2023-09-13 20:31:29 INFO AutoSwitchAcceptSocketService - HAService receive new connection, /192.168.1.172:59700
2023-09-13 20:31:36 INFO AutoSwitchAcceptSocketService - HAService receive new connection, /192.168.1.172:36956
2023-09-13 20:31:43 INFO AutoSwitchAcceptSocketService - HAService receive new connection, /192.168.1.172:36972
2023-09-13 20:31:50 INFO AutoSwitchAcceptSocketService - HAService receive new connection, /192.168.1.172:48866
2023-09-13 20:31:57 INFO AutoSwitchAcceptSocketService - HAService receive new connection, /192.168.1.172:56400
2023-09-13 20:32:04 INFO AutoSwitchAcceptSocketService - HAService receive new connection, /192.168.1.172:36922
2023-09-13 20:32:11 INFO AutoSwitchAcceptSocketService - HAService receive new connection, /192.168.1.172:36926
  • slave
java 复制代码
2023-09-14 03:17:32 INFO AutoSwitchHAClient - AutoSwitchHAClient connect to master 192.168.1.171:30922
2023-09-14 03:17:39 INFO AutoSwitchHAClient - AutoSwitchHAClient connect to master 192.168.1.171:30922
2023-09-14 03:17:46 INFO AutoSwitchHAClient - AutoSwitchHAClient connect to master 192.168.1.171:30922
2023-09-14 03:17:53 INFO AutoSwitchHAClient - AutoSwitchHAClient connect to master 192.168.1.171:30922
2023-09-14 03:18:00 INFO AutoSwitchHAClient - AutoSwitchHAClient connect to master 192.168.1.171:30922
2023-09-14 03:18:07 INFO AutoSwitchHAClient - AutoSwitchHAClient connect to master 192.168.1.171:30922
2023-09-14 03:18:14 INFO AutoSwitchHAClient - AutoSwitchHAClient connect to master 192.168.1.171:30922

修复问题

可以看到主要是主从连接断开后没有销毁flowMonitor线程。所以我们修改下NIO的连接关闭代码即可

相关代码可以查看这个pr

总结

目前来看5.1.0之前的版本可能都有这个问题。所以大家在实际使用的时候一定要注意自己的RocketMQ这个bug是否修复了.

不过影响说大不大,说小不小。因为masterslave频繁建立连接本身也有问题

相关推荐
晨非辰2 分钟前
基于Win32 API控制台的贪吃蛇游戏:从设计到C语言实现详解
c语言·c++·人工智能·后端·python·深度学习·游戏
Victor3564 分钟前
Netty(27)Netty的拦截器和过滤器是什么?如何使用它们?
后端
码界奇点6 分钟前
基于Go语言的Web管理面板系统设计与实现
开发语言·后端·golang·毕业设计·web·go语言·源代码管理
WizLC6 分钟前
【后端】关于Elasticsearch的入门,下载安装+使用
java·大数据·后端·elasticsearch·搜索引擎·全文检索
小此方6 分钟前
Re: ゼロから学ぶ C++ 入門(六)类和对象·第三篇:运算符重载
开发语言·c++·后端
喵了几个咪8 分钟前
开箱即用的 GoWind Admin|风行,企业级前后端一体中后台框架:用 JavaScript/Lua 解锁动态业务扩展能力
javascript·后端·微服务·golang·lua·admin
浮尘笔记12 分钟前
Go语言条件变量sync.Cond:线程间的协调者
开发语言·后端·golang
自由生长202413 分钟前
请求洪峰来了,怎么使用消息队列削峰? 我们来深入的聊一下
后端·架构
武子康13 分钟前
Java-208 RabbitMQ Topic 主题交换器详解:routingKey/bindingKey 通配符与 Java 示例
java·分布式·性能优化·消息队列·系统架构·rabbitmq·java-rabbitmq