记录一次TDSQL-MySQL数据库主从延迟导致批量报错

背景信息:一个7*24小时的交易系统,采用集中式实例,1主5从。凌晨执行卸数批量时,出现"proxy erroy:no available address"报错。报错的SQL语句中采用了hint语法/*slave:localslave,slaveonly,20*/,表示选择主从延迟小于20s的从库执行sql语句,如果找不到主从延迟小于20s的从库,则报错。

排查思路;

1、查询proxy节点上的interf日志,在报错时间点附近找到了对应的"proxy erroy:no available address"记录,确认报错。

2、检查问题时间点附近慢SQL,未发现大事务,排除大事务造成的主从延迟。

3、结合造成主从延迟的原因+报错信息,可以排除掉长时间未提交事务、锁超时。

4、 查看赤兔binlog增长速率,发现问题时间点附近binlog有突增,再比较interf日志生成时间,发现问题时间点附近短短几分钟内就产生了好几个大小1G的日志,由此,可以确认造成主从延迟的原因为短时间内有大量写入binlog的sql执行。

5、通过proxy日志问题时间段过滤出insert、delete、update语句,发给项目组确认,为另外一个批量发起的SQL。

至此,问题原因以及查明:另外一个批量在短时间内发起大量执行速度很快的insert、delete、update语句,造成了所有从库的主从延迟超过20s,卸数批量SQL语句找不到满足的从库,因而报错。后续整改方案就是卸数批量避开其他批量以及业务高峰期。

相关推荐
这个DBA有点耶10 小时前
NULL不是空——数据库里最反直觉的设计,90%新人踩过的坑
数据库·mysql·代码规范
这个DBA有点耶12 小时前
AI写的SQL跑崩了生产库,这锅谁背?
数据库·人工智能·程序员
镜舟科技12 小时前
Databricks 再提 LTAP,AI 时代的数据底座为何重回大一统叙事?
数据库·架构·agent
Databend13 小时前
从湖仓升级为 Agent 时代的数据控制面,Snowflake 和 Databricks 有哪些布局
大数据·数据库·agent
ClouGence16 小时前
SQL Server CDC 能放到 Always On 备库读吗?一文讲透原理与实践
数据库·sql server
先吃饱再说1 天前
存储的进化:从 MySQL 到浏览器缓存,数据到底住在哪?
数据库
Nturmoils1 天前
字段太多看不全,ksql 的展开模式和输出控制怎么用
数据库·后端
Databend2 天前
Agent 轨迹分析与归因的数据工程实践
大数据·数据库·agent
这个DBA有点耶2 天前
SQL改写进阶:标量子查询的“隐形代价”与消除实战
数据库·mysql·架构
smallyoung2 天前
数据库乐观锁深度解析:MySQL、PostgreSQL 实战 + Spring Boot 集成指南
数据库·mysql·postgresql