记录一次线上内存溢出排查详细过程

现象

生产上频繁出现调用异常的信息

查询生产服务器日志

初步评估:查看了这个方法没有性能瓶颈,应该是服务本身出现问题、后来找运维要了一下线上dumpfile文件:内存溢出、猜测可能存在内存泄漏

MAT初步排查

从第一个页面来看,内存到达1.7G出现内存溢出

问题一:为什么1.7G就溢出了,问过刘罕生产环境配置的大小是8G

查看项目启动脚本

查看项目的ymal文件中的配置

查询一些资料表面如果没有配置Xmx和Xms会出现最大使用内存是机器内存的1/4,配置8G实际虚拟机最大使用内存不到2G、结论不谋而合

问题二:内存溢出的根源

查看直方图

从图中可以看出byte数组占比高达1.6G左右、但是看不出来被谁引用

从这里看、短时间出现大量查询费用单的请求每次请求的大小为10M

每个请求里面都有一个近10M的数组

这里出现大量Http11OutputBuffer对象、并且大小10M、查看一下源码

每次请求创建一个Http11OutputBuffer

JDK8默认8K

查看了一下线上配置

结论:

1.由于没有配置Xmx和Xms

2.server.max-http-header-size配置10M过大导致所有服务每次请求最低10M传输

上述两点导致内存溢出

建议:

1.配置Xmx和Xms

2.server.max-http-header-size减小到合理的范围、尽量减小请求头中的数据