【Bug】【内存相关】偶然发现一个内存溢出Bug复盘

一、问题

跑自动化用例的时候,uat-sg环境,发现SGW经常会返回 502 Bad Gateway响应

二、原因

经过SRE和BE Dev共同排查,502 是从ALB-- > 后端服务 后端服务无法响应导致,ALB会直接给客户端返回502。

服务端:由于cgroup升级到v2,java无法正确识别内存配置(设置32G,实际物理内存只有16G),导致内存溢出,服务重启,一直没响应给ALB,所以返回502
检查实际启动参数内存分配

检查grafana CPU监控,发现有波动

检查grafana 内存监控,发现有用完情况

检查服务重启日志,有对应重启记录

三、解决办法

将Java启动参数-jar -XX:InitialRAMPercentage=80.0 -XX:MaxRAMPercentage=80.0 -XX:MinRAMPercentage=80.0

修改为:-jar -Xms12g -Xmx15g

四、效果

修改后,所有自动化未返回502

五、影响

live xx地区可能会有相同现象,发版解决

六、监控告警

思考:建立live环境服务器资源阈值告警体系,及时发现问题

相关推荐
hello_2501 天前
bug排查思路大纲
bug
秃头小饼干1 天前
关于Bug排查日记的技术文章大纲
bug
烧冻鸡翅QAQ1 天前
测试中的Bug
bug·测试
云和数据.ChenGuang2 天前
java常见SSL bug解决方案
java·bug·ssl
cat_with_cat3 天前
测试:BUG篇
bug·测试
黑客飓风3 天前
Bug排查日记的技术
bug
Wiktok3 天前
[Wit]CnOCR模型训练全流程简化记录(包括排除BUG)
python·深度学习·bug
玄尺_0073 天前
bug:uniCloud报Business Failed, 参数有误retry invoke error
数据库·bug
程序猿阿伟3 天前
《云原生边缘与AI训练场景:2类高频隐蔽Bug的深度排查与架构修复》
人工智能·云原生·bug
夕阳UPdz3 天前
深入探索 Unity 错误排查过程:从“滚动条问题”到“鼠标悬浮异常”
bug