记录一次长时间未提交事务造成的慢SQL

目录

问题描述

问题分析

1、了解前后信息

2、分析执行计划

3、分析生产环境系统负载

4、分析数据库性能

5、初步锁定根因为长时间未提交事务导致

6、最终根因定位

7、原理分析


问题描述:

开发反馈执行某条select语句的时候,生产环境和测试环境耗时相差非常大,生产耗时要18S,测试环境耗时不到1秒钟。

问题分析:

1、了解前后信息

a、该SQL是近期新上的

b、生产执行耗时要18S,测试环境耗时不到1秒钟

c、该SQL属于业务人员点击页面发起的查询

d、普通select语句

2、分析执行计划

比较了生产和测试环境的执行计划,执行计划完全相同,比较数据量也相差不大,因此排除执行计划不同导致的耗时差异。

3、分析生产环境系统负载

检查生产环境io、cpu、内存负载情况,系统负载不高,未发现瓶颈。

4、分析数据库性能

a、计算缓冲池命中率,可以达到99.99%,说明数据库内存配置合理

b、检查数据库会话信息,活跃连接数量、连接数使用率不高,未发现瓶颈

c、检查数据库异常会话,依次检查数据库是否有锁等待、长时间未提交事务,发现数据库有一条insert into select 的SQL语句已经执行超过半个月还没有提交,该insert语句中的select子查询为多表关联,其中一张表与耗时慢的SQL涉及的表相同,故怀疑耗时慢的select语句是受到长时间未提交事务影响。

d、查看该慢SQL在主库和从库的执行计划、耗时,发现主从执行计划相同,主库执行耗时18S,从库执行耗时11S,从库执行明显比主库快。

5、初步锁定根因为长时间未提交事务导致

a、手动将长时间未提交事务杀掉

b、再次查看该慢SQL在主库的耗时,发现耗时已经降到11S,和从库一致。至此,已经解决了主从执行耗时不一致的问题。还剩下一个问题,就是生产和测试执行耗时不同。

c、继续分析慢SQL,该select语句用到了group by和order by,并且生产和测试都用到了file sort,去掉order by,发现测试用于排序的行记录数比生产少很多,测试返回给排序的行记录数为几百条,而生产上返回给排序的行记录是几百万行,故生产耗时比测试多也是意料之中。毕竟,测试数据是做过脱敏处理,并且测试和生成数据也有区别。

6、最终根因定位

即长时间未提交事务导致主库对应的select语句性能下降,解决方案为杀掉长时间未提交的事务。

7、原理分析

给大家留个思考,我们下次再展开讨论,大家可以在评论区发表自己的看法。

相关推荐
A-刘晨阳15 小时前
AI原生时序数据库选型指南:从数据存储到智能决策的范式跃迁
数据库·时序数据库·ai-native
HalvmånEver17 小时前
MySQL的增删改查命令合集合集
数据库·sql·oracle
不剪发的Tony老师17 小时前
dblab:一款基于终端的交互式数据库客户端
数据库·sql
xwz小王子18 小时前
Science Robotics基础模型正在改写机器人集群的“游戏规则”
数据库·人工智能·机器人
茉莉玫瑰花茶18 小时前
LangGraph 介绍
服务器·网络·数据库
倒霉蛋小马18 小时前
【Redis】利用Redis构造全局唯一ID
数据库
YL2004042618 小时前
MySQL-基础篇-函数
mysql
夕除18 小时前
springboot--06
数据库·spring boot·mybatis
2401_8330336219 小时前
golang如何实现MQTT主题通配符路由_golang MQTT主题通配符路由实现策略
jvm·数据库·python
运维小子19 小时前
JumpServer Applet 发布自定义远程应用:Oracle SQL Developer 自动登录
数据库·sql·oracle·jumpserver