线上CPU飙升问题如何排查 - Java版

Java线上CPU飙升问题如何排查

CPU飙高是一个在线上环境常见且严重的问题,通常会导致系统响应变慢、服务不可用,甚至引发崩溃

对于后端开发来说,学会排查处理问题也是自身综合能力的体现,有效的梳理排查和解决CPU飙高问题的思路

常见的CPU飙高原因

线上CPU飙高,一般是由以下这些因素引起的:

  1. 代码出现死循环,结合应用日志分析
  2. 大量FullGC,结合JVM监控GC相关指标,可能内存也存在异常
  3. 突发压力,通过反向代理的 Access Log 进行细化定位
  4. 不当的线程同步,比如死锁,结合线程堆栈分析deadlock
  5. 大量的线程上下文切换
  6. 出现耗时过长的密集计算,通常需要结合监控平台响应时间来分析

案例分析

假设线上有一份SpringBoot的Web工程CpuLoadDemo,写一个死循环代码,把代码跑起来

java 复制代码
@RestController
public class Controller {

    @GetMapping("/cpuLoadTest")
    public String cpuLoadTest() {
        while(true) {
            
        }
    }
}

1.定位高CPU占用进程

服务启动后,在浏览器地址栏访问http://ip:port/cpuLoadTest,浏览器会一直处于等待状态,用top命令查看

可以看到我们刚才启动的java进程几乎快占满了CPU,记录下这个java进程的进程ID为1

2.根据进程ID查找导致CPU飙高的线程

shell 复制代码
ps H -eo pid,tid,%cpu | grep 2044058

这个命令显示3列,第一列为进程2044058,第二列位2044058进程内的各个线程ID,第三列为各个线程所占用的CPU。

这里可以看到2044276这个线程占用的cpu最高,快占用了50%,这里我们定位到了导致CPU飙高的线程,获取这个线程ID

3.将线程ID转换为16进制

用以下命令将线程1转换为16进制

shell 复制代码
printf "%x\n" 2044276

获取到这个线程的16进制为1

4.获取线程堆栈信息

执行以下命令获取这个高CPU线程的堆栈信息

shell 复制代码
jstack 1|grep -A 10 2044276

jstack <线程ID> :用于查找这个java进程的所有的线程快照,线程快照包含线程堆栈的详细信息

从线程的堆栈信息可以看出,问题代码在cpuloaddemo着个模块的Controller代码的第11行,位于cpuloadTest函数

5.根因分析

检查Controller代码的第11行

发现11行这里写了死循环,导致程序运行过程中CPU飙高

总结

线上CPU使用率突然飙升是一个相当复杂的问题,可能由很多种原因引发,本文举的只是一个简单案例,真实场景远比这复杂的多

通过简单案例的思路梳理,在脑海里有排查问题的思路,从基础的初步检查和问题定位开始,逐步深入分析线程、代码,以及系统资源

和运行环境。同时,构建全面的性能监控体系、定期进行代码评审与系统优化,开展压力测试等,都是预防CPU飙高问题的重要手段

相关推荐
Lee川40 分钟前
mini-cursor 揭秘:从 Tool 定义到 Agent 循环的完整实现
前端·人工智能·后端
星浩AI3 小时前
OpenHuman 对比 OpenClaw、Hermes Agent
人工智能·后端·agent
小江的记录本3 小时前
【Java基础】泛型:泛型擦除、通配符、上下界限定(附《思维导图》+《面试高频考点清单》)
java·数据结构·后端·mysql·spring·面试·职场和发展
geovindu5 小时前
go: Semaphore Pattern
开发语言·后端·设计模式·golang·企业级信号量模式
IT_陈寒5 小时前
Redis内存用爆了,原来我们都忽略了这个配置
前端·人工智能·后端
武子康5 小时前
Java-02 深入浅出MyBatis 3 快速入门:环境配置、项目创建与 CRUD 操作
java·后端
未若君雅裁6 小时前
Spring Boot 自动配置原理与常用注解
java·spring boot·后端
Xiacqi16 小时前
Java数据库连接--JDBC--DRUID
数据库·后端
浮游本尊6 小时前
用结构化 Prompt 让大模型「干活」:以数据库巡检告警建议生成为例
后端
snakeshe10106 小时前
SpringBoot 多人协作平台实战(8):Cookie 与登录状态维持
后端