记录一次TDSQL-MySQL数据库主从延迟导致批量报错

背景信息:一个7*24小时的交易系统,采用集中式实例,1主5从。凌晨执行卸数批量时,出现"proxy erroy:no available address"报错。报错的SQL语句中采用了hint语法/*slave:localslave,slaveonly,20*/,表示选择主从延迟小于20s的从库执行sql语句,如果找不到主从延迟小于20s的从库,则报错。

排查思路;

1、查询proxy节点上的interf日志,在报错时间点附近找到了对应的"proxy erroy:no available address"记录,确认报错。

2、检查问题时间点附近慢SQL,未发现大事务,排除大事务造成的主从延迟。

3、结合造成主从延迟的原因+报错信息,可以排除掉长时间未提交事务、锁超时。

4、 查看赤兔binlog增长速率,发现问题时间点附近binlog有突增,再比较interf日志生成时间,发现问题时间点附近短短几分钟内就产生了好几个大小1G的日志,由此,可以确认造成主从延迟的原因为短时间内有大量写入binlog的sql执行。

5、通过proxy日志问题时间段过滤出insert、delete、update语句,发给项目组确认,为另外一个批量发起的SQL。

至此,问题原因以及查明:另外一个批量在短时间内发起大量执行速度很快的insert、delete、update语句,造成了所有从库的主从延迟超过20s,卸数批量SQL语句找不到满足的从库,因而报错。后续整改方案就是卸数批量避开其他批量以及业务高峰期。

相关推荐
lixora19 小时前
Oracle 11g Active Data Guard Go 自动化部署工具 v1.0
数据库·oracle
Nturmoils19 小时前
自增主键别只会 auto_increment,先把值从哪来讲清楚
数据库·后端
叶小鸡19 小时前
Java 篇-项目实战-AI 天机学堂(从 0 到 1)-day5
数据库·redis·缓存
mN9B2uk1719 小时前
大数据量高并发的数据库优化
服务器·数据库·oracle
Database_Cool_20 小时前
PolarSearch AutoETL:让数据库内置搜索不再需要搬运工
数据库
AI行业学习20 小时前
CC-Switch v3.16.1 官方下载 | 安装配置详细教程【2026.6.10】
java·开发语言·vue.js·python·mysql·eclipse·html
用户30745969820720 小时前
乐观锁与悲观锁
mysql
cui178756820 小时前
物业费收缴困局的破题之路:2026年社区商业逻辑的底层重构
大数据·数据库·人工智能
是发财不是旺财20 小时前
Hermes 网关四层权限控制方案:让 AI Agent 安全地查数据库
数据库·安全·agent·openclaw·hermes
阿正的梦工坊21 小时前
【Rust】04-借用、引用与切片
java·数据库·rust