线上死锁问题排查思路

Java线上死锁问题排查

死锁是程序开发中经常遇到的问题,参与死锁的线程将无法继续执行,长时间的死锁会导致整个系统卡死

这样一来服务不得不中断从而严重影响用户体验,所以在发生死锁后,尽早的排查出死锁问题,恢复系统运行就显得很重要

案例分析

java 复制代码
public class DeadLockDemo {

    private final Object lock1 = new Object();
    private final Object lock2 = new Object();

    public void method1() {
        synchronized (lock1) {
            System.out.println("Method1 持有lock1");
            try {
                Thread.sleep(100);
                synchronized (lock2) {
                    System.out.println("Method1 持有lock2");
                }
            }catch (InterruptedException e){
                System.out.println("Method1 等待获取lock2");
            }
        }
    }

    public void method2() {
        synchronized (lock2) {
            System.out.println("Method2 持有lock2");
            try {
                Thread.sleep(100);
                synchronized (lock1) {
                    System.out.println("Method1 持有lock1");
                }
            }catch (InterruptedException e){
                System.out.println("Method1 等待获取lock1");
            }
        }
    }

    public static void main(String[] args) {
        DeadLockDemo demo = new DeadLockDemo();
        Thread t1 = new Thread(demo::method1,"method1");
        Thread t2 = new Thread(demo::method2,"method2");
        t1.start();
        t2.start();
    }
}

死锁识别及分析

  • 运行程序发现程序一直卡住,进程永远不会结束
  1. 收集线程堆栈信息,在终端执行以下命令,查看应用程序的进程ID
ini 复制代码
jps
  1. 然后将进程ID对应的程序线程日志收集到文本中,方便后续分析
ini 复制代码
jstack -l 39171 > ./deadlockdemo.txt

可以看到在当前目录下生成了一个deadlockdemo.txt文件

  1. 在deadlockdemo.txt文件中搜索deadlock等字样

很明显的可以看到线程thread1和thread2都出现了wating to lock,尝试获取锁,造成了死锁,并定位到具体代码行

  1. 代码分析

代码分析很容易就看出是这里的两个锁定出现了问题,thread1和thread2出现了循环锁定,thread1先锁定了lock1,然后sleep了100ms

再去尝试锁定lock2,而thread2这个时候已经把lock2锁定了,然后thread2又尝试锁定lock1,由于lock1和lock2都被对方持有,不释放

导致thread1和thread2的第二次锁定永远不会成功,从而形成死锁

  1. 代码修正

调整获取锁的顺序,避免出现循环锁定,让thread2也先锁定lock1,然后再锁定lock2,调整后代码如下:

java 复制代码
public class DeadLockDemo {

    private final Object lock1 = new Object();
    private final Object lock2 = new Object();

    public void method1() {
        synchronized (lock1) {
            System.out.println("Method1 持有lock1");
            try {
                Thread.sleep(100);
                synchronized (lock2) {
                    System.out.println("Method1 持有lock2");
                }
            }catch (InterruptedException e){
                System.out.println("Method1 等待获取lock2");
            }
        }
    }

    public void method2() {
        synchronized (lock1) {
            System.out.println("Method2 持有lock1");
            try {
                Thread.sleep(100);
                synchronized (lock2) {
                    System.out.println("Method2 持有lock2");
                }
            }catch (InterruptedException e){
                System.out.println("Method2 等待获取lock2");
            }
        }
    }

    public static void main(String[] args) {
        DeadLockDemo demo = new DeadLockDemo();
        Thread t1 = new Thread(demo::method1,"method1");
        Thread t2 = new Thread(demo::method2,"method2");
        t1.start();
        t2.start();
    }
}

总结

线上排查Java死锁问题步骤,简单概括如下:

  1. 识别死锁发生的现象:确定应用是否表现出死锁的症状,如线程长时间处于阻塞状态
  2. 获取线程堆栈的信息:通过工具(如jstack)获取JVM线程堆栈,分析各线程的状态,尤其关注等待锁的线程
  3. 分析代码:检查线程堆栈中的栈帧,定位发生死锁的代码区域。重点关注可能导致锁定的同步块或方法
  4. 优化代码逻辑:修复导致死锁的代码块,一般可以采用减少锁的粒度,使用非阻塞算法,或者重构为无锁设计,使用tryLock()等机制避免长期持有锁等方式
  5. 监控和测试:持续监控应用运行时的线程情况,尤其是在高并发场景下,通过压力测试和代码审计尽早发现潜在的死锁问题
相关推荐
JS菌1 分钟前
手写一个 AI Agent 全栈项目:从沙箱执行到子智能体的完整实现
前端·人工智能·后端
wang090729 分钟前
自己动手写一个spring之IOC_2
java·后端·spring
ltl1 小时前
推理退化:为什么大模型会输出乱码、死循环和无意义文本
后端
ltl1 小时前
架构视图与文档:C4 模型从入门到实战
后端
IT_陈寒4 小时前
Redis持久化这个坑,我爬了一整天才出来
前端·人工智能·后端
无风听海4 小时前
多租户系统中的 OIDC:Discovery 端点与联合登录的深度实践
后端·python·flask
小小前端仔LC5 小时前
Node.js + LangChain + React:搭建个人知识库(六)- “吃什么”项目实战:从700+菜谱入库到Taro H5端JSON渲染
前端·后端
程序员黑豆5 小时前
AI全栈开发之Java:怎么配置Java环境变量
前端·后端·ai编程
苍何5 小时前
一手实测 Claude Fable 5,手搓了个 Obsidian 的 Codex 插件
后端
swipe6 小时前
做多轮对话 Agent,为什么我建议把短期记忆放到 Redis
后端·面试·llm