日常 Bug 排查 - 偶发性读数据不一致

日常 Bug 排查 - 偶发性读数据不一致

前言

日常 Bug 排查系列都是一些简单 Bug 的排查。笔者将在这里介绍一些排查 Bug 的简单技巧,同时顺便积累素材。

Bug 现场

业务场景

先描述这个问题出现的业务场景。这是一个支付的场景,如果支付成功了,我们就把支付状态置为 success (主单据更新) 同时写入支付成功时间戳为 t1 (子单据更新)。支付成功之后,我们还需要做其它的动作,做这个动作的时候我们需要刚才的支付成功时间戳 t1。那么,我们正常的请求顺序即为:

Bug 现场

奇怪的是,线上运行时候,会有极小的概率 (大概是几亿分之一) 获取的这个时间戳为 0!也即在读到主单为 success 的时候,看到的子单时间戳是 0!由于时间戳为 0,所以调用下游 RPC 传参错误导致了调用失败。 如下图所示:

思路

因为在请求 1 中,我们是在事务内更新的,数据应该始终保持一致才对。那很直观的第一个思考点就是: 思路 1: 是不是事务没生效?笔者看了下源代码,使用没有问题,也不存在类内方法互相调用的情况。再者说,如果事务没生效,概率不至于这么低。

思路 2: 稍加思索一下,好像这个是事务隔离级别的原因。在这个 Case 里面,看上去数据库采用的 RC 隔离级别,也就是读已提交。如下图所示:

复制代码
t1时刻,请求2查询到的子单据时间戳为0
t2时刻,请求1提交,这时候将子单据时间戳更新为t1,主单据状态为success
t3时刻,请求2由于RC隔离级别,能看到请求1的提交,主单状态为success,所以判定可以进行下游RPC的调用,但是由于在t1时刻获取到的时间戳为0,导致调用失败

矛盾点

数据库隔离级别是 RC 应该能非常好的解释出现 Bug 时的行为。于是笔者查了一下隔离级别,发现是 RR,这就陷入了矛盾!但由于 RC 这个隔离级别解释这个 Bug 非常的靠谱,所以笔者看了下业务的数据库配置,发现它有 100 个库。那么就自然有了下一步猜想:这 100 个库中有的是 RR 的,有的是 RC 的。出问题的那个库正好就是 RC 的。

指定库查询隔离级别

于是笔者就根据业务的 shardKey 到了指定的库查询隔离级别,发现它果然是 RC 级别的,真相大白!这 100 个库中大概有 1/3 的库是 RC 隔离级别。

后续修复

这个问题是由于 DBA 在换库的过程中采用了默认的配置,导致原来设置为 RR 级别的库在换了大容量机器后被默认改成了 RC 隔离级别。DBA 找了个时间将隔离级别切换回 RR 后问题就消失了,并编写了相应的巡检脚本防止此类问题再次发生。

总结

隔离级别是比较微妙的,相关问题大多只在高并发大流量下才会有偶发性的显现,分库分表集群中不同 DB 的隔离级别由于种种原因导致的不一致会加大问题的排查难度。有时候遇到无法解释问题时可以考虑下底层组件的设置问题。

公众号

欢迎大家加我公众号<<解Bug之路>>,干货量大管饱。

相关推荐
毕设源码-赖学姐3 分钟前
【开题答辩全过程】以 基于Spring Boot的驾校信息管理系统的设计与实现为例,包含答辩的问题和答案
java·spring boot·后端
Chef_Chen11 分钟前
数据科学每日总结--Day52--Dify使用经验
后端·dify
William_cl14 分钟前
ASP.NET路由类型约束核心精讲:[HttpGet (“{id:int}“)] 整数约束吃透,附避坑指南 + 实战代码
后端·asp.net
yangSnowy19 分钟前
MySQL 分布式锁实现方案
数据库·分布式·mysql
2401_8414956426 分钟前
【Web开发】基于Flask搭建简单的应用网站
后端·python·flask·视图函数·应用实例·路由装饰器·调试模式
Dragon Wu30 分钟前
SpringBoot3 当前最新版knife4j openapi3 集成方案
spring boot·后端·springboot
2501_9419820533 分钟前
企微自动化开发:安全与效率的平衡术
数据库·mysql·企业微信
女王大人万岁34 分钟前
Go语言JSON标准库(encoding/json):功能解析与实战指南
服务器·开发语言·后端·golang·json
小高Baby@39 分钟前
Go语言中面向对象的三大特性之继承的理解
开发语言·后端·golang
小高Baby@40 分钟前
Go语言中面向对象的三大特性之封装的理解
开发语言·后端·golang