记录一次长时间未提交事务造成的慢SQL

目录

问题描述

问题分析

1、了解前后信息

2、分析执行计划

3、分析生产环境系统负载

4、分析数据库性能

5、初步锁定根因为长时间未提交事务导致

6、最终根因定位

7、原理分析


问题描述:

开发反馈执行某条select语句的时候,生产环境和测试环境耗时相差非常大,生产耗时要18S,测试环境耗时不到1秒钟。

问题分析:

1、了解前后信息

a、该SQL是近期新上的

b、生产执行耗时要18S,测试环境耗时不到1秒钟

c、该SQL属于业务人员点击页面发起的查询

d、普通select语句

2、分析执行计划

比较了生产和测试环境的执行计划,执行计划完全相同,比较数据量也相差不大,因此排除执行计划不同导致的耗时差异。

3、分析生产环境系统负载

检查生产环境io、cpu、内存负载情况,系统负载不高,未发现瓶颈。

4、分析数据库性能

a、计算缓冲池命中率,可以达到99.99%,说明数据库内存配置合理

b、检查数据库会话信息,活跃连接数量、连接数使用率不高,未发现瓶颈

c、检查数据库异常会话,依次检查数据库是否有锁等待、长时间未提交事务,发现数据库有一条insert into select 的SQL语句已经执行超过半个月还没有提交,该insert语句中的select子查询为多表关联,其中一张表与耗时慢的SQL涉及的表相同,故怀疑耗时慢的select语句是受到长时间未提交事务影响。

d、查看该慢SQL在主库和从库的执行计划、耗时,发现主从执行计划相同,主库执行耗时18S,从库执行耗时11S,从库执行明显比主库快。

5、初步锁定根因为长时间未提交事务导致

a、手动将长时间未提交事务杀掉

b、再次查看该慢SQL在主库的耗时,发现耗时已经降到11S,和从库一致。至此,已经解决了主从执行耗时不一致的问题。还剩下一个问题,就是生产和测试执行耗时不同。

c、继续分析慢SQL,该select语句用到了group by和order by,并且生产和测试都用到了file sort,去掉order by,发现测试用于排序的行记录数比生产少很多,测试返回给排序的行记录数为几百条,而生产上返回给排序的行记录是几百万行,故生产耗时比测试多也是意料之中。毕竟,测试数据是做过脱敏处理,并且测试和生成数据也有区别。

6、最终根因定位

即长时间未提交事务导致主库对应的select语句性能下降,解决方案为杀掉长时间未提交的事务。

7、原理分析

给大家留个思考,我们下次再展开讨论,大家可以在评论区发表自己的看法。

相关推荐
pele1 小时前
bootstrap怎么实现带有验证状态的表单
jvm·数据库·python
上海合宙LuatOS1 小时前
LuatOS扩展库API——【 lbsLoc2】免费版单基站定位
数据库·物联网·oracle·junit·lua·luatos
蜡台1 小时前
Centos 安装Mysql
linux·mysql·centos·yum·mysql8
djjdjdjdjjdj2 小时前
CSS实现图片中心剪裁定位_background-position center
jvm·数据库·python
智象科技2 小时前
AI运维:人工智能如何改变传统IT运维
数据库·人工智能·自动化·一体化运维·ai运维
Wyz201210242 小时前
PyTorch bfloat16 张量转 NumPy 的正确方法与替代方案
jvm·数据库·python
天选之子1232 小时前
Django模板(二)
数据库·django·sqlite
weixin_580614002 小时前
CSS如何制作下拉菜单弹性展开_利用transform-origin
jvm·数据库·python
jeCA EURG2 小时前
一、安装Redis(win11环境下)
数据库·redis·缓存