记录一次长时间未提交事务造成的慢SQL

目录

问题描述

问题分析

1、了解前后信息

2、分析执行计划

3、分析生产环境系统负载

4、分析数据库性能

5、初步锁定根因为长时间未提交事务导致

6、最终根因定位

7、原理分析


问题描述:

开发反馈执行某条select语句的时候,生产环境和测试环境耗时相差非常大,生产耗时要18S,测试环境耗时不到1秒钟。

问题分析:

1、了解前后信息

a、该SQL是近期新上的

b、生产执行耗时要18S,测试环境耗时不到1秒钟

c、该SQL属于业务人员点击页面发起的查询

d、普通select语句

2、分析执行计划

比较了生产和测试环境的执行计划,执行计划完全相同,比较数据量也相差不大,因此排除执行计划不同导致的耗时差异。

3、分析生产环境系统负载

检查生产环境io、cpu、内存负载情况,系统负载不高,未发现瓶颈。

4、分析数据库性能

a、计算缓冲池命中率,可以达到99.99%,说明数据库内存配置合理

b、检查数据库会话信息,活跃连接数量、连接数使用率不高,未发现瓶颈

c、检查数据库异常会话,依次检查数据库是否有锁等待、长时间未提交事务,发现数据库有一条insert into select 的SQL语句已经执行超过半个月还没有提交,该insert语句中的select子查询为多表关联,其中一张表与耗时慢的SQL涉及的表相同,故怀疑耗时慢的select语句是受到长时间未提交事务影响。

d、查看该慢SQL在主库和从库的执行计划、耗时,发现主从执行计划相同,主库执行耗时18S,从库执行耗时11S,从库执行明显比主库快。

5、初步锁定根因为长时间未提交事务导致

a、手动将长时间未提交事务杀掉

b、再次查看该慢SQL在主库的耗时,发现耗时已经降到11S,和从库一致。至此,已经解决了主从执行耗时不一致的问题。还剩下一个问题,就是生产和测试执行耗时不同。

c、继续分析慢SQL,该select语句用到了group by和order by,并且生产和测试都用到了file sort,去掉order by,发现测试用于排序的行记录数比生产少很多,测试返回给排序的行记录数为几百条,而生产上返回给排序的行记录是几百万行,故生产耗时比测试多也是意料之中。毕竟,测试数据是做过脱敏处理,并且测试和生成数据也有区别。

6、最终根因定位

即长时间未提交事务导致主库对应的select语句性能下降,解决方案为杀掉长时间未提交的事务。

7、原理分析

给大家留个思考,我们下次再展开讨论,大家可以在评论区发表自己的看法。

相关推荐
倔强的石头_2 分钟前
KingbaseES 新版MySQL 兼容版体验:旧版迁移 + 功能实测
数据库
zzzzzz3101 天前
9K Star 炸裂开源!这个 C 语言写的代码知识图谱,把 Linux 内核索引压缩到了 3 分钟
linux·服务器·sql
倔强的石头_3 天前
《Kingbase护城河》——数据库存储空间全景探测与精细化瘦身实战
数据库
云技纵横3 天前
唯一索引 INSERT 死锁实战:5 秒复现交叉插入的 S 锁循环等待
sql·mysql
沉默王二3 天前
面试官:RAG 不用向量数据库,用 MySQL 硬扛?我:100 万向量不是很轻松?
mysql·面试·ai编程
冬奇Lab3 天前
每日一个开源项目(第134篇):Zvec - 阿里开源的嵌入式向量数据库,向量搜索界的 SQLite
数据库·人工智能·llm
小猿姐4 天前
MySQL Top 10 热点问题 AI 运维实战:从内核诊断到云原生运维
mysql·云原生·aiops
ClouGence4 天前
Oracle CDC 架构优化:从主库直连到 DataGuard 备库同步
数据库·后端·oracle
云技纵横4 天前
Gap Lock 死锁实战:5 秒在本地复现 MySQL 间隙锁死锁
后端·mysql