MySQL海量数据深分页优化

海量数据深分页问题是当用户请求查看很靠后的页码数据,数据库要先扫描/排序跳过offset条记录,再去size条,导致性能下降。

核心点:为什么LIMIT越往后越慢?

当我们执行

sql 复制代码
SELECT * FROM orders ORDER BY id LIMIT 1000000, 10;

MySQL不会直接跳到第1000000行再取10条数据,而是从头到尾读取1000010行,然后把前1000000删掉,只给最后10行。

资源浪费 :即使有索引,这也意味着大量的回表操作,因为select *需要读取整行数据,而不是索引节点

现象:LIMIT 0,10耗时0.001s,LIMIT 1000000,10耗时50s+

解决方案

方案一:延迟关联------标准答案

这是再不改变业务逻辑(依然支持前端跳页)的前提下,最有效的SQL优化手段。

思路:既然SELECT * 回表速度很慢,那我们就先通过索引只查ID,把这一页的10个ID取出来,然后再去取整行数据。

优化前SELECT*FROM orders WHERE status =1ORDERBY id LIMIT 1000000, 10;

优化后

sql 复制代码
SELECT t1.* FROM orders t1
INNER JOIN (
    -- 第一步:只查 ID。因为 ID 在索引上,不需要回表,速度极快(走覆盖索引)
    SELECT id FROM orders WHERE status = 1 ORDER BY id LIMIT 1000000, 10
) t2 ON t1.id = t2.id;
-- 耗时:0.2秒

利用覆盖索引,先在索引树上快速完成分页定位,拿到ID后,再后表查询具体数据,避免了前100万行无效回表.

方案二:游标法/锚点法------性能最强

在实际场景里,抖音、X都是往下无线滚动,而不是第一页第二页这种情况,这种场景就不再需要offset

思路:记下上一页最后一条数据的ID(或时间戳),下一页从这个ID开始往后找

sql 复制代码
-- 第一页:拿到最后一条 ID = 999
SELECT * FROM orders LIMIT 10;

-- 第二页:直接找 ID > 999 的
SELECT * FROM orders WHERE id > 999 LIMIT 10;

优点:无论翻到第几亿条数据,性能都和第一页一样快

缺点:无法支持随机跳转,只能一页一页往下翻

如果业务允许(如瀑布流、Feed流),我们可以推动产品改为游标分页,记录上一次最后一个锚点ID,查询时使用SELECT * FROM t WHERE id>last_id LIMIT N来彻底消除offset带来的问题.

方案三:ID限制/连续ID优化

如果ID是严格连续自增的(没有删除过数据),可以直接计算ID范围

sql 复制代码
-- 比如你要查第 10000 页,每页 10 条
-- Start ID = 10000 * 10 = 100000
SELECT * FROM orders WHERE id BETWEEN 100000 AND 100010;

缺点:目前很少系统ID是严格连续的,会有回滚,删除,分布式ID的情况,适用面很小。

方案四:冷热分离/限制深度

从架构角度出发:用户真的需要看第100万页的订单吗?实际场景中,谷歌智慧显示前100页数据,淘宝京东这些也只会开放前3个月记录

解决方案:

最大页数限制:从实际业务角度出发,如果用户请求很后的页码,直接报错或返回缩小返回

冷热分离:最近三个月的数据用MySQL存储,而三个月以前的数据,归档到HBase、 ClickHouse 等。历史数据即使查询慢一点,也是可接受的,因为无关核心业务。

回答

建议按这个顺序回答,展现你的层层递进能力:

  1. 分析原因 :先说明 LIMIT offset, N 在 InnoDB 引擎层会造成大量无效回表。
  2. 技术优化(首选) :提出 "覆盖索引 + 子查询(延迟关联)" 方案,这是最通用的解法。
  3. 业务妥协(高性能) :如果业务是瀑布流,建议改用 "游标法 (WHERE id > x)",性能最佳。
  4. 架构演进(终极):最后补充,"其实从产品角度,我们应该限制最大分页深度,或者进行冷热数据分离,毕竟没人真的会去看第 100 万页的数据。"
相关推荐
想用offer打牌12 分钟前
高并发下如何保证接口的幂等性
后端·面试·状态机
爱勇宝1 小时前
2026一人公司生存指南:用AI大模型,90天跑出你的第一条现金流
前端·后端·架构
golang学习记1 小时前
Go 并发编程:原子操作(Atomics)完全指南
后端
jiayou641 小时前
KingbaseES 实战:深度解析数据库对象访问权限管理
数据库
哈里谢顿2 小时前
`127.0.0.1` 和 `0.0.0.0` 有何区别?通过验证 demo来展示
后端
树獭叔叔2 小时前
08-大模型后训练的指令微调SFT:LoRA让大模型微调成本降低99%
后端·aigc·openai
苏三说技术2 小时前
我终于遇到一台真正懂程序员的显示器!
后端
于眠牧北2 小时前
MySQL的锁类型,表锁,行锁,MVCC中所使用的临键锁
mysql
Re_zero2 小时前
线上日志被清空?这段仅10行的 IO 代码里竟然藏着3个毒瘤
java·后端
花落人散处2 小时前
流式输出——解决 HITL 难题 (SpringAIAlibaba)
后端