k8s java应用pod内存占用过高问题排查

1.背景

运维对pod的总内存以及pod的使用内存进行监控,当pod的使用内存达到80%之后会触发相应的告警,实际上会触发偶尔91%的占用告警

2.排查过程

2.1 查看grafana pod的内存占用情况

发现其服务使用的内存是稳步上升的并在14点左右达到峰值

2.2 查询JVM以及相关线程信息

查看线程数是一直往上涨的

堆内存以及非堆(元数据、类信息、机器码的占用都是较为稳定的)

2.3 查看启动参数

bash 复制代码
java -Duser.language=en -Duser.country=US -Duser.timezone=Asia/Shanghai -Djava.security.egd=file:///dev/urandom -Dsun.net.client.defaultConnectTimeout=5000 -Dsun.net.client.defaultReadTimeout=60000 -Dspring.jmx.enabled=false -Dspring.backgroundpreinitializer.ignore=true -Djava.util.concurrent.ForkJoinPool.common.parallelism=10 -cp /app:/app/lib/* -Xmx2G -Xms2G -XX:+UseG1GC -XX:+UnlockExperimentalVMOptions -XX:G1MaxNewSizePercent=45 -XX:InitiatingHeapOccupancyPercent=30 -XX:MetaspaceSize=512m -XX:MaxMetaspaceSize=512m -XX:+HeapDumpOnOutOfMemoryError -XX:OnOutOfMemoryError=/quitJava.sh -XX:HeapDumpPath=/var/logs/dump/usercenter.hprof -XX:+PrintGCDetails -XX:+PrintGCDateStamps -Xloggc:/var/logs/dump/gc-usercenter.log -javaagent:/arms/ArmsAgent/arms-bootstrap-1.7.0-SNAPSHOT.jar -Darms.licenseKey=cs4c3rve40@5cd8543bd7364f7 -DserviceLibs.report=false -Darms.appName=usercenter -Drocketmq.client.logLevel=error -jar /app.jar

实际上堆内存固定在了2G、元数据空间最大为512M

2.4 查看k8s pod yaml

发现pod的内存固定为3G

2.5 查看JVM内存信息以及进程占用内存信息

bash 复制代码
jcmd <pid> GC.heap_info
awk '/VmRSS/ {printf "PID %d RSS: %.2f MB\n", PID, $2/1024}' PID=<pid> /proc/<pid>/status

看到实际进程占用内存为2838m

JVM各部分占用内存 堆2G、元空间230M、压缩类26M

3、结论

3.1、原因分析

pod只有3G内存,但实际上pod内存使用为主应用占用的内存+其他进程占用的内存

主应用占用的内存 = 2G(堆内存) + 元数据(227M) + 压缩类空间(26M) + Code Cache

编译机器码(130M) + 线程数534个(1个1M) = 2.9G左右

与实际2838M结果差不多

告警的主要原因是pod的request内存只设置了3G,部署久了之后,随着元数据和线程数增长,就导致JVM堆占用了2G + 元数据 + 线程每个1M + 堆外达到了2800M就触发了对应的占用过高的告警,然后随着元数据和线程的释放,会反复触发对应的告警

3.2、解决方案

需要运维将pod的内存调整为4G

4、相关资料

JVM内存组成

内存区域 说明
Heap G1GC 堆内存
Metaspace + Class 元空间+类信息
Thread Stack 每线程栈约 1 MB × 线程数
DirectByteBuffer / Unsafe 内存 Netty、ByteBuffer、I/O 缓冲等
CodeCache JIT 编译后的机器码
Agent(ARMS) Java Agent 开销
其他堆外 JVM 内部缓存、锁信息等
相关推荐
曹牧8 小时前
Spring Boot:如何测试Java Controller中的POST请求?
java·开发语言
爬山算法9 小时前
Hibernate(90)如何在故障注入测试中使用Hibernate?
java·后端·hibernate
kfyty7259 小时前
集成 spring-ai 2.x 实践中遇到的一些问题及解决方案
java·人工智能·spring-ai
猫头虎9 小时前
如何排查并解决项目启动时报错Error encountered while processing: java.io.IOException: closed 的问题
java·开发语言·jvm·spring boot·python·开源·maven
李少兄9 小时前
在 IntelliJ IDEA 中修改 Git 远程仓库地址
java·git·intellij-idea
金刚猿9 小时前
01_虚拟机中间件部署_root 用户安装 docker 容器,配置非root用户权限
docker·中间件·容器
忆~遂愿10 小时前
ops-cv 算子库深度解析:面向视觉任务的硬件优化与数据布局(NCHW/NHWC)策略
java·大数据·linux·人工智能
wgslucky10 小时前
jdk17 配置jvm参数中gc的日志及控制日志数量和大小
jvm·gc·-xlog
小韩学长yyds10 小时前
Java序列化避坑指南:明确这4种场景,再也不盲目实现Serializable
java·序列化
仟濹10 小时前
【Java基础】多态 | 打卡day2
java·开发语言