写了一个分页 sql,因为粗心出了 bug 造成了 OOM!

大家好,我是君哥。

最近上完线后,凌晨收到一个生产告警,一个 OOM 异常导致了服务重启。今天来分享一下这个事故。

1.事故现场

事故的代码逻辑并不复杂,从一个大概有 8 万数据的表里面查出数据,汇总后对数据做处理。因为数据量有 8 万,这里做了分页查询,每页查询 1000 条。这里贴一下代码:这里我们假定这个表名叫 sql_bug。

复制代码
private void testSQLBug(){
 List<SQLBugData> sqlBugDatas = new ArrayList<>();
 int pageSize = 1000;
 int pageNumber = 0;
 while (true){
  List<SQLBugData> data = sqlBugDataMapper.queryData(pageSize, pageNumber);
  if (CollectionUtils.isEmpty(data)){
   break;
  }
  //过滤掉不符合条件的数据。
  filterData(data);
  sqlBugDatas.addAll(data);
  if (data.size() <= pageSize){
   break;
  }
  pageNumber++;
 }
}

下面我们看一下 sql,这里用 Oracle 数据库,orm 框架用的 mybatis,sql 在 mapper.xml 文件中:

复制代码
select * from sql_bug order by id
offset #{pageNumber} rows fetch first #{pageSize} rows only

**仔细看上面的 sql,我们可以看到 Offset 这个参数传入了 pageNumber。**那后果是什么呢?查询语句每次偏移量加 1,表里有 8 万条数据,相当于得查询 79000 次循环才能结束。sqlBugDatas 数据量一直累加,最终触发 OOM。

2.原因分析

**开发同事为什么会出这个 bug 呢?**原因是错误地把 offset 这个变量理解成是页码的偏移量。正确的写法:

复制代码
select * from sql_bug order by id
offset #{pageNumber}*#{pageSize} rows fetch first #{pageSize} rows only

**为什么测试没有测出来呢?**测试环境数据量比较小,并没有出现 OOM 的情况。

**代码 review 为什么没有发现?**由于交付的代码量很大,做代码 review 的同事主要关注点在业务逻辑的正确性上面,并没有精力能看到这么细节的问题。

3.分页写法

使用 offset 进行分页的写法很常见,比如使用 MySQL 的 limit 语法,sql 如下:

复制代码
select * from sql_bug order by id
limit #{pageNumber}*#{pageSize},#{pageSize}

但是使用 Offset 进行分页的写法并不推荐,因为有深度分页的性能问题,后面的页耗时会越来越多。下图是阿里开发手册关于分页场景的一个规范。

遵循这个规范,我们每次查询的时候,不妨传入一个主键 id。先改写一下代码:

复制代码
private void testSQLBug(){
 List<SQLBugData> sqlBugDatas = new ArrayList<>();
 String id = null;
 int pageSize = 0;
 while (true){
  List<SQLBugData> data = sqlBugDataMapper.queryData(id, pageSize);
  if (CollectionUtils.isEmpty(data)){
   break;
  }
  id = data.get(data.size()-1).getId();
  //过滤掉不符合条件的数据。
  filterData(data);
  sqlBugDatas.addAll(data);
  if (data.size() <= pageSize){
   break;
  }
 }
}

配合上面代码,把 sql 也改写一下,这里使用 mysql 语法:

复制代码
select * from sql_bug 
<if test="id != null">            
 where id <![CDATA[>]]> #{id}
</if>   
order by id
limit #{pageSize}

也可以使用 rownum 来控制,下面再改写一下(Oracle 语法):

复制代码
select * from(
 select * from sql_bug 
 <if test="id != null">            
  where id <![CDATA[>]]> #{id}
 </if>   
 order by id
)
where rownum <![CDATA[<]]> #{pageSize} + 1

我个人更推荐 rownum 写法,原因有 2 个:

  1. 这种语法更容易理解,如果出问题的 sql 使用这个语法,大概率是不会出这个 bug 的;

  2. 国内好多公司做信创改造,国产数据库对这种语法支持更好一些。

4.总结

本文介绍了一个生产事故,并对事故和改进方法进行了分析,希望对你理解数据库分页有所帮助。

相关推荐
专注VB编程开发20年1 天前
Windows API 所有老式结构体4字节对齐,但是64位VBA,Twinbasic弄成了8字节对齐,大BUG
windows·bug
IT枫斗者2 天前
前端部署后如何判断“页面是不是最新”?一套可落地的版本检测方案(适配 Vite/Vue/React/任意 SPA)
前端·javascript·vue.js·react.js·架构·bug
半天法师2 天前
Bug 记录:UE 结构体转 JSON 时 Key 字段大小写异常 (Editor 与打包后表现不一致)
ai·ue5·json·bug
张小俊_2 天前
WPF 跨线程 UI 更新与硬编码赋值引发的 Bug 排查
c#·bug·wpf
鸿儒5173 天前
记录一个C++ Windows程序移植到Linux系统的bug
开发语言·c++·bug
Python私教4 天前
HermesAgent 终端工具 Windows 兼容性修复实战:两个 Bug 的排查与解决
windows·bug
瀚高PG实验室4 天前
pgroonga全文检索插件的BUG
数据库·postgresql·bug·瀚高数据库
¥-oriented6 天前
记录使用C#编程中遇到的一个小bug
c#·bug
MaraSun7 天前
Deepseek 的一个bug
bug·deepseek
葡萄城技术团队8 天前
Excel公式前的“@”符号:是Bug还是黑科技?
科技·bug·excel