数据库死锁排查思路

确认死锁现象：

确认是否确实是死锁问题。死锁通常表现为系统某些操作长期无法完成或线程长时间阻塞。

在死锁发生时，线程通常处于"等待"状态，并且没有释放持有的资源。

收集日志信息：

查阅系统日志（例如 Java 线程堆栈日志、数据库日志、应用日志等）来确认是否存在线程被阻塞的情况。

日志中可能包含线程的堆栈跟踪信息，这可以帮助我们找到阻塞和锁竞争的情况。

通过监控系统定位死锁：

如果系统有监控工具（如 Prometheus + Grafana，JVM 内存与线程监控），查看是否有线程长时间处于阻塞状态（如 Blocked、Waiting 等状态），并查找具体的线程 ID。

使用应用监控工具（例如 New Relic、Datadog、Zabbix 等）查看是否有异常的响应时间、请求超时或高延迟。

线程分析和 dump 分析：

在死锁发生时，通过 jstack 等工具获取线程堆栈 dump（可以通过 JVM 参数设置定期或手动生成）。

分析线程 dump，查找死锁相关的堆栈信息。通常会显示两条或多条线程相互等待对方释放资源的情况。

排查具体步骤

获取线程堆栈信息

如果系统中有 JVM 进程，可以使用以下工具获取线程的堆栈信息：

使用 jstack 工具：

jstack > thread_dump.txt

PID 是进程 ID，thread_dump.txt 是输出文件。* 使用 kill -3（仅限于 Java 环境）：

kill -3

这将把线程堆栈信息打印到标准输出或日志文件中。

分析线程堆栈信息

线程堆栈信息会列出当前所有线程的状态及它们持有的锁。死锁通常表现为两个或多个线程互相等待对方释放资源。你可以通过以下步骤分析堆栈信息：

查找状态为 BLOCKED 或 WAITING 的线程。

查找这些线程在等待哪些锁，通常显示为 waiting to lock 或 blocked on 等信息。

如果你看到两个或多个线程正在等待彼此持有的锁，这通常就是死锁。

示例死锁堆栈：

"Thread-1" #10 prio=5 os_prio=0 tid=0x0000000002c11000 nid=0x1d4c waiting for monitor entry $0x000000000a2a6000$

java.lang.Thread.State: BLOCKED (on object monitor)

at com.example.LockTest.methodA(LockTest.java:30)

waiting to lock <0x00000000a72fd5f8> (a java.lang.Object)

at com.example.LockTest.run(LockTest.java:20)

locked <0x00000000a72fd620> (a java.lang.Object)

"Thread-2" #11 prio=5 os_prio=0 tid=0x0000000002c11800 nid=0x1d4d waiting for monitor entry $0x000000000a2a7000$

java.lang.Thread.State: BLOCKED (on object monitor)

at com.example.LockTest.methodB(LockTest.java:40)

waiting to lock <0x00000000a72fd620> (a java.lang.Object)

at com.example.LockTest.run(LockTest.java:30)

locked <0x00000000a72fd5f8> (a java.lang.Object)

分析死锁原因

通过线程堆栈信息可以看到，Thread-1 等待 Thread-2 持有的锁，而 Thread-2 又在等待 Thread-1 持有的锁，这形成了循环依赖，即死锁。此时，需要检查代码中可能造成这种情况的锁获取顺序，通常死锁的根本原因是多个线程获取多个锁时的顺序不一致。

代码层面排查

死锁的根本原因通常是锁的获取顺序不一致，为了避免死锁，可以考虑以下几点：

锁的顺序一致性：在获取多个锁时，确保所有线程按照相同的顺序获取锁。

例如，避免一个线程先获取锁 A 后获取锁 B，而另一个线程先获取锁 B 后获取锁 A。

推荐使用以下方式：

统一锁的获取顺序。

如果需要获取多个锁，使用 tryLock() 来尝试获取锁，或者使用超时机制来避免死锁。* 锁的超时机制：设置锁的超时时间，当超过一定时间未获得锁时，自动放弃，这可以避免死锁的发生。

在 Java 中，可以使用 ReentrantLock 来设置超时：

if (lock.tryLock(30, TimeUnit.SECONDS)) {

try {

// 执行业务逻辑

} finally {

lock.unlock();

}

} else {

// 获取锁失败，处理超时逻辑

}

避免嵌套锁：避免在一个线程中获取多个锁，尽量使锁操作保持简单。

进一步的排查工具

JVM 参数调优：JVM 提供了一些参数来帮助发现死锁。例如，可以通过 -XX:+PrintDeadLock 来打印死锁信息。

在 JVM 启动时添加以下参数：

-XX:+PrintDeadLock

使用 APM 工具：可以借助 APM 工具（如 New Relic、Datadog、Prometheus、Grafana 等）监控应用的运行状况，及时发现死锁。

数据库层面的死锁

如果是数据库相关的死锁，可以使用数据库提供的死锁检测功能。例如：

MySQL：可以查看 SHOW ENGINE INNODB STATUS 命令的输出，了解 InnoDB 存储引擎中的死锁情况。

PostgreSQL：可以查看 PostgreSQL 的死锁日志，通常会记录发生死锁的 SQL 语句和相关的线程信息。

总结

确认死锁现象：查看线程阻塞、请求超时等现象。

获取线程堆栈信息：使用 jstack、kill -3 等工具获取堆栈信息。

分析堆栈信息：查找阻塞和等待锁的线程，找到相互等待的情况。

排查代码层面：检查锁获取顺序，尽量避免多个锁嵌套。

使用工具：通过 JVM 参数、APM 工具、数据库死锁检测等手段进一步排查死锁。