实际项目中的一个OOM和事务的问题

问题描述

线上代码如下:

  1. 先加上一个数据库行锁

  2. 执行业务操作

  3. 最后释放这个行锁

@Transactional(rollbackFor = Exception.class)

void method(){

try{

add db lock

doBiz();

}finally{

release db lock

}

}

实际遇到了 doBiz() 导致OOM了,导致数据库行锁没有释放,结果其它用户执行method方法全部失败。

问题排查

首先如上代码因为一直以来都是好的,没有遇到问题,而报错是 **DUPLICATE KEY**错误(在add db lock方法中,拿个表设置了unique key,插入相同的会报错)。

另外因为线上是很多用户操作的。

所以:直接去arthas trace该方法,然后顺便去看doBiz()方法有没有重复加锁的逻辑,且doBiz()方法是耗时的;另外还去数据库看了是否锁加成功了,即数据库有没有记录。发现都没有

然后排查到的几个现象,这个时候还没有人准确看doBiz()的异常

  1. 联系dba查看可以看到很多加锁的sql操作在等待队列中

  2. arthas trace 加锁报错了 MySQLTransactionRollbackException: Lock wait timeout exceeded,try restarting transaction

  3. 部分可以看到释放锁但是报错Communications link failure。

所以是加锁失败,然后又一直重试,一直失败。(所以去数据库查询的时候没有找到记录,然后因为很简单的sql,所以怀疑锁没有释放,去找重复加锁和释放锁为什么没有执行,结果原因在这里)。另外发现了释放锁有问题,则机器肯定也有问题了。

随后又看了机器的各个log,发现了OOM异常。所以结论是:在一个事务中,业务代码超时且OOM异常了,导致事务一直没有提交,等待锁超时,然后又一直重试。

随后改写代码加日志,验证猜想。所以这也说明平时日常工作中重要地方加日志的重要性质(然后走了一次机器发布重启,当时主要是排查也没有想到这个)

@Transactional(rollbackFor = Exception.class)

void method(){

try{

add db lock

doBiz();

}catch(Exception e){

logger.error("xxx", e)

}finally{

logger.warn("release lock");

release db lock

}

}

测试发现有测试例子是没有执行finally的释放锁方法的


顺便也说下OOM的问题,是select了数据库中的大字段,大量内存占用处,一般这个大纪录字段是单个记录才需要查询的; 当扫描了所有记录,且也select这个字段导致出现OOM。所以spring mybatis 结合查询的时候,不要什么时候都select所有字段。

相关推荐
mldlds3 分钟前
MySQL加减间隔时间函数DATE_ADD和DATE_SUB的详解
android·数据库·mysql
Chengbei1142 分钟前
若依全漏洞复现:从 SQL 注入到 RCE 一站式实战 复现、利用与防御
数据库·sql·安全·web安全·网络安全·系统安全·安全架构
小江的记录本1 小时前
【事务】Spring Framework核心——事务管理:ACID特性、隔离级别、传播行为、@Transactional底层原理、失效场景
java·数据库·分布式·后端·sql·spring·面试
数据皮皮侠1 小时前
中国城市间地理距离矩阵(2024)
大数据·数据库·人工智能·算法·制造
lars_lhuan2 小时前
从键值数据库到Redis
数据库·redis·缓存
倔强的石头1062 小时前
KaiwuDB社区版 3.1.0 在 Ubuntu 22.04 部署实战:TLS 配置、踩坑复盘与轻量压测
数据库·ubuntu·kwdb
liwenzhuola2 小时前
解决 Ubuntu 上 Qt Creator 项目编译失败的问题
数据库·qt·ubuntu
万邦科技Lafite3 小时前
利用淘宝商品详情接口获取商品价格,监控商品价格浮动
数据库·api·开放api接口·淘宝开放接口
深藏功yu名4 小时前
Day24:向量数据库 Chroma_FAISS 入门
数据库·人工智能·python·ai·agent·faiss·chroma