【Bug】【内存相关】偶然发现一个内存溢出Bug复盘

一、问题

跑自动化用例的时候,uat-sg环境,发现SGW经常会返回 502 Bad Gateway响应

二、原因

经过SRE和BE Dev共同排查,502 是从ALB-- > 后端服务 后端服务无法响应导致,ALB会直接给客户端返回502。

服务端:由于cgroup升级到v2,java无法正确识别内存配置(设置32G,实际物理内存只有16G),导致内存溢出,服务重启,一直没响应给ALB,所以返回502
检查实际启动参数内存分配

检查grafana CPU监控,发现有波动

检查grafana 内存监控,发现有用完情况

检查服务重启日志,有对应重启记录

三、解决办法

将Java启动参数-jar -XX:InitialRAMPercentage=80.0 -XX:MaxRAMPercentage=80.0 -XX:MinRAMPercentage=80.0

修改为:-jar -Xms12g -Xmx15g

四、效果

修改后,所有自动化未返回502

五、影响

live xx地区可能会有相同现象,发版解决

六、监控告警

思考:建立live环境服务器资源阈值告警体系,及时发现问题

相关推荐
upp16 小时前
【bug】Error: /undefinedfilename in (/tmp/ocrmypdf.io.9xfn1e3b/origin.pdf)
ubuntu·pdf·bug·ghostscript
杨过姑父19 小时前
部署开源版禅道,修改apache端口无效解决
bug·apache·软件工程·issue
chao_7892 天前
针对“仅某个地区出现Bug”的原因分析与解决方案
测试用例·bug
帅帅哥的兜兜2 天前
Bug问题
bug
养意2 天前
git提交代码和解决冲突修复bug
git·bug
东方不败之鸭梨的测试笔记3 天前
20250605车充安服务器受木马攻击导致服务不可用
bug
Htht1113 天前
【Qt】之【Get√】【Bug】通过值捕获(或 const 引用捕获)传进 lambda,会默认复制成 const
数据库·bug
前端发现3 天前
如何用 pnpm patch 给 element-plus 打补丁修复线上 bug(以 2.4.4 修复 PR#15197 为例)
bug
可乐鸡翅好好吃3 天前
通过BUG(prvIdleTask、pxTasksWaitingTerminatio不断跳转问题)了解空闲函数(prvIdleTask)和TCB
c语言·stm32·单片机·嵌入式硬件·bug·keil
神膘护体小月半4 天前
bug 记录 - 使用 el-dialog 的 before-close 的坑
前端·javascript·bug