阿里云社招一面：数据库中有 1000 万数据的时候怎么分页查询？

神奇小汤圆2026-04-26 10:05

今天给大家分享一道阿里云社招面试中的经典问题------如何处理千万级数据的分页查询。这不仅是高频面试题，更是实际业务中必须解决的性能难题。下面我会从基础实现到阿里级优化方案，逐步拆解这个问题的技术要点。

1. 基础方案：LIMIT OFFSET的致命缺陷

面试官 ："假设订单表有1000万数据，如何实现分页查询？ "

初级开发者的回答通常是：

sql 复制代码

SELECT * FROM orders ORDER BY create_time DESC LIMIT 10 OFFSET 1000000;

问题分析：

全表扫描MySQL需要先读取1000010条记录，然后丢弃前100万条
性能灾难 当OFFSET=900万时，查询可能需要10秒+
内存爆炸大偏移量会导致大量临时文件生成（Using filesort）

2. 中级优化：子查询+索引覆盖

进阶方案：

sql 复制代码

SELECT * FROM orders WHERE id <= (SELECT id FROM orders ORDER BY create_time DESC LIMIT 1000000, 1)ORDER BY create_time DESC LIMIT 10;

优化原理：

子查询先通过覆盖索引快速定位到起始ID
主查询通过主键ID范围过滤
相比OFFSET方案，性能提升10倍+

适用场景：

数据量在100万-5000万级别
必须有合适的索引（create_time需建立二级索引）

面试官期待的答案：

技术要点：

无OFFSET通过上一页的最后一条记录作为游标锚点
索引友好 完美利用(create_time)索引的有序性
性能稳定无论查询第1页还是第100万页，响应时间都<100ms

业务适配：

需要前端配合传递last_record_value
不支持随机跳页（但符合现代APP无限滚动交互）

4. 终极方案：分库分表+二级索引

当数据量达到亿级时，阿里云实际采用的架构：

水平分片按订单ID哈希分16个库
全局索引表 单独维护(user_id, create_time)的映射关系

查询流程
先查索引表获取目标记录的主键ID
再通过ID路由到具体分片查询完整数据

上一篇：星空彼岸：科学、宗教与“超越”的可能

下一篇：【AI大模型春招面试题29】对比学习（Contrastive Learning）在大模型预训练中的应用？

热门推荐

01GitHub 镜像站点 02Codex 接入 DeepSeek API 完整配置文档 03头歌软件工程导论UML画图题(基于starUML)04CC-Switch & Claude 基于 Linux 服务器安装使用指南 05【AI】2026 年具身智能模型和世界模型总结 06Codex 手机端连接教程：三分钟搞定，附完整步骤 07零基础教你claude code 接入 deepseek V4 08人工智能最新动态 AI 日报 · 2026年5月10日 09Gemini大升级、AI眼镜首发、Android XR亮相，13天后见分晓 10AI科技热点日报 | 2026年5月11日