利用“延迟关联”优化 MySQL 巨量数据的深分页查询


1. 简单 LIMIT 的性能瓶颈

假设我们有一张用户画像表 PROFILES,包含以下字段:id (主键), sex, rating, bio (长文本), address 等。我们需要查询性别为男且按评分排序的第 10,001 页数据(每页 10 条)。

普通查询 SQL:

sql 复制代码
SELECT id, sex, rating, bio, address 
FROM PROFILES 
WHERE sex = 'M' 
ORDER BY rating 
LIMIT 100000, 10;

执行原理与问题:

  1. 全行扫描 :即便在 (sex, rating) 上有索引,MySQL 引擎仍需从索引中定位到满足条件的记录,然后根据主键 ID 回表 读取整行数据(包含 bio, address 等大字段)。
  2. 无效 I/O:MySQL 会扫描并读取前 100,010 行的所有字段,然后抛弃前 100,000 行,只返回最后 10 行。
  3. 资源浪费:读取这 10 万行大字段数据产生了巨大的磁盘 I/O 开销,并挤占了 Buffer Pool 缓存空间。

2. 为什么要使用延迟关联?

延迟关联 的核心思想是:先在索引中完成范围扫描和过滤,只获取主键 ID,最后再通过主键关联回原表获取需要的全部列。

优化后的 SQL:

sql 复制代码
SELECT p.id, p.sex, p.rating, p.bio, p.address
FROM PROFILES AS p
INNER JOIN (
    SELECT id 
    FROM PROFILES 
    WHERE sex = 'M' 
    ORDER BY rating 
    LIMIT 100000, 10
) AS x USING(id);

性能提升的原因:

  • 利用覆盖索引 :内部子查询 x 只查询 id。如果存在合适的联合索引,MySQL 可以在索引树上完成过滤和排序,无需回表。
  • 最小化回表次数 :在子查询中,MySQL 依然要扫描 100,010 条记录,但此时只操作索引块,不触碰数据页。只有最终胜出的 10 条记录才会执行回表操作获取 bio 等字段。

3. 延迟关联与联合索引的协同效应

延迟关联的威力大小,直接取决于联合索引的设计。

场景 A:无合适联合索引

如果只给 sex 加了索引,子查询执行 ORDER BY rating 时,由于索引中不包含 rating 的有序信息,系统会触发 Using filesort。此时虽然减少了回表,但内存排序的压力依然巨大。

场景 B:存在联合索引 (sex, rating)

这是延迟关联的最佳实践:

  1. 索引扫描排序 :子查询进入索引树,由于索引先按 sex 排序,在 sex='M' 的局部块内,rating 已经是物理有序的。
  2. 零 Filesort:MySQL 顺着索引链表直接数到第 100,000 个节点,取 10 个 ID 即可。
相关推荐
SelectDB19 小时前
阶跃星辰基于 SelectDB 构建 PB 级 Agent 可观测平台
大数据·数据库·aigc
这个DBA有点耶20 小时前
GROUP BY优化全解:如何写出既不丢数据又飞快的分组查询
数据库·mysql·架构
掉头发的王富贵1 天前
【StarRocks】极限十分钟入门StarRocks
数据库·sql·mysql
Nturmoils1 天前
WHERE 条件别凭习惯写,常用查询先跑一遍
数据库
SamDeepThinking1 天前
一条UPDATE语句在MySQL 8.0中到底加了几把锁?
后端·mysql·程序员
Databend2 天前
在 AWS 中国峰会逛了一天,我在 Databend 展台看到了 Agent 数据基础设施的新思路
数据库·人工智能·agent
李白客3 天前
KES新版MySQL兼容能力再升级意味着什么?
mysql·国产数据库
ClouGence3 天前
Oracle 数据同步为什么会出现数据不一致?长事务是常被忽略的原因
数据库·后端·oracle
飞将3 天前
从零实现数据库(2)——HashIndex + IndexManager
数据库
Nturmoils4 天前
订单列表慢查询,先看 WHERE、ORDER BY 和 LIMIT
数据库