项目问题
最近在开发一个监听服务的应用,需要用多个线程去获取服务提供方提供的消息,这个服务部署四天后就开始假死了,项目进程还在,但是没有日志输出。
问题排查
- 首先先排查服务器的各种资源,发现这些都正常。
free -h
查看服务器的内存
df -h
查看服务器的存储空间
top -H
查看cpu占用
-
排查网络状态,发现也正常
netstat -anp | grep <pid>
是否存在大量等待的网络请求 -
这些都没问题的话,那就需要去看下jvm的信息了
jstat -gcutil <pid> 1000 10
jstat 是 JDK 自带的强大工具,用于监控 JVM 内存使用和垃圾回收情况。检查发现老年代已经达到了100%。
到此问题已经很明确了,
S0 S1 E O M CCS YGC YGCT FGC FGCT GCT
0.00 99.86 99.99 100.00 94.87 92.54 992 0.289 235943 28620.620 28620.910
-
老年代(O)持续100%:
- 老年代空间完全耗尽
- JVM 无法分配任何新对象到老年代
- 导致所有内存请求失败
-
年轻代完全阻塞:
- Eden区(E)持续99.99%满
- Survivor区(S1)持续99.86%
- Young GC(YGC=992)完全停滞(连续多次无变化)
- 对象晋升机制完全失效
问题解决
定位到问题后,就需要排查解决了 jmap -dump:format=b,file=heapdump.hprof <PID>
通过jmap将堆栈信息导出来,并通过Eclipse MAT来进行分析(比较建议使用这个工具),他会告诉你xx实例占用了xxxxbyte,通过这个提示直接去排查相应的代码逻辑即可。

最后发现项目连接服务提供方获取消息失败三次后,连接会自动断开,每次断开重连都会创建新的连接对象,而旧的连接对象虽然做了关闭处理,但是可能仍在活跃,导致gc无法进行回收,连续多天创建对象导致老年代打满。