从零起步学习MySQL 第九章：从数据页的角度看B+树及MySQL中数据的底层存储原理

在MySQL的InnoDB存储引擎中，数据的底层存储并非简单的无序存放，而是通过表空间-段-区-页-行 的层级结构组织，并基于B+树实现高效的索引和数据查询。这也是MySQL能支撑高并发、大数据量查询的核心原因之一。上一章我们从行的角度解析了单条数据的存储格式，本章将从数据页这个InnoDB最小读写单位出发，深入剖析数据页的内部结构，并结合B+树讲解InnoDB中数据的整体存储原理，同时解答相关高频面试题。

一、InnoDB 数据存储的层级结构

InnoDB对数据的管理有着严格的逻辑层级划分，从大到小依次为：数据库 -> 表空间 -> 段 -> 区 -> 页 -> 行，每一层都有其明确的职责和存储规则，层层嵌套构成了完整的数据存储体系。

1. 表空间 (Tablespace)

表空间是InnoDB存储数据的最高级容器，对应磁盘上的.ibd或ibdata1文件。MySQL中可通过配置innodb_file_per_table=ON实现单表单表空间 ，此时每张表的所有数据和索引都会单独存放在对应的表名.ibd文件中（如user表对应user.ibd）；若关闭该配置，所有表的数据会统一存放在共享表空间ibdata1中。

2. 段 (Segment)

一个表空间由多个段组成，段是为特定数据类型分配的存储空间，核心分为两种：

数据段：存储表的实际行数据，对应聚簇索引的叶子节点；
索引段 ：存储索引的结构数据，对应B+树的非叶子节点，每张索引对应一个独立的索引段。

3. 区 (Extent)

段的最小分配单位是区，一个区的固定大小为1MB，默认情况下一个区包含64个连续的页（因InnoDB默认页大小为16KB，64*16KB=1MB）。区的设计目的是减少磁盘碎片，保证数据的连续存储，提升磁盘IO效率。

4. 页 (Page)

页是InnoDB最小的读写和存储单位，默认大小为16KB（16384字节），也是本章的核心讲解对象。页是段的组成单位，一个段会包含多个不连续的区，每个区又包含连续的页。InnoDB有多种页类型，各司其职：

数据页 ：存放表的行记录，源码中类型标识为FIL_PAGE_INDEX，是本章重点；
索引页：存放B+树的索引节点数据；
其他类型：Undo页（存储回滚数据）、事务页（管理事务信息）、系统页（存储系统配置）等。

5. 行 (Row)

行是InnoDB存储的最小逻辑单位，即我们插入的单条表记录。每行数据不仅包含用户定义的列，还会附带InnoDB自动添加的隐藏列（DB_ROW_ID、DB_TRX_ID、DB_ROLL_PTR），且行的物理存储会遵循我们上一章讲过的行格式（如COMPACT、DYNAMIC），以此节省存储空间并提升管理效率。

二、InnoDB 数据页的内部结构详解

如果把表空间比作一个文件柜，那么数据页就是文件柜中的一个抽屉，这个抽屉里不仅放着核心的行数据，还包含了页头、页尾、目录等辅助信息，用于页的管理、数据校验、快速查询。一个16KB的数据页从前往后依次分为7个部分，各部分大小和作用固定，具体结构如下：

File Header（文件头）-> Page Header（页头）-> Infimum/Supremum伪记录 -> User Records（用户记录区）-> Free Space（空闲空间）-> Page Directory（页目录）-> File Trailer（页尾）

文件头用于存储页的基础标识、页之间的链表关系和完整性校验信息，是InnoDB识别和管理页的基础，核心字段及作用如下：

字段	核心说明
FIL_PAGE_SPACE_OR_CHKSUM	页校验和，检测页是否损坏
FIL_PAGE_OFFSET	页号，唯一标识页在表空间的位置
FIL_PAGE_PREV	上一个页的页号，实现双向链表
FIL_PAGE_NEXT	下一个页的页号，实现双向链表
FIL_PAGE_LSN	页最后修改的日志序列号
FIL_PAGE_TYPE	页类型，数据页固定为0x45BF

核心作用：实现页之间的双向链表链接（如B+树叶子节点的连续链接），快速定位页的位置，并校验页的完整性，防止磁盘读写导致的数据损坏。

页头用于记录当前数据页自身的内部状态和控制信息，供InnoDB管理页内的记录，核心字段及作用如下：

字段	核心说明
PAGE_N_DIR_SLOTS	页目录中的槽数量
PAGE_HEAP_TOP	页内空闲空间的起始位置
PAGE_N_HEAP	页内的总记录数量
PAGE_FREE	指向第一个可重用的空闲记录指针
PAGE_LEVEL	该页在B+树中的层级，叶子页为0
PAGE_INDEX_ID	索引ID，标识该页属于哪棵索引树

核心作用：InnoDB通过页头快速掌握页内的存储情况，比如"有多少条记录""空闲空间在哪""属于B+树的哪一层"，从而高效分配空间、管理记录。

3. Infimum 和 Supremum 伪记录：26字节，页内的"哨兵"

每个数据页中都会存在两条不存储真实业务数据的伪记录，作为页内记录的边界：

Infimum（下限）：比页内所有用户记录都小；
Supremum（上限）：比页内所有用户记录都大。

核心作用：

支撑页内记录的有序单向链表结构，所有用户记录都位于这两条伪记录之间；
简化页内记录的范围比较和边界判断逻辑，避免因"无首记录/无尾记录"导致的查询逻辑复杂。

4. User Records（用户记录区）：动态大小，页的"核心数据区"

这是数据页中最核心的部分，用于存放真正的用户行数据，也是我们业务中插入的记录所在的区域。

每条记录的存储结构延续了上一章讲的行格式规范，包含：变长字段长度列表 + NULL标志位 + 记录头信息 + 用户定义列 + 隐藏列（DB_TRX_ID、DB_ROLL_PTR、DB_ROW_ID）。

且页内的所有用户记录会按主键顺序组成单向链表 ，链表的顺序为：Infimum -> 记录1 -> 记录2 -> ... -> 记录N -> Supremum，保证了页内数据的有序性。

5. Free Space（空闲空间）：动态大小，页的"备用存储空间"

空闲空间是页内尚未分配给用户记录的连续空间，当向页中插入新记录 时，InnoDB会从空闲空间中分配对应大小的空间给新记录；当页内的记录被删除后，其占用的空间会被标记为空闲，并加入空闲链表，供后续新记录重用。

核心作用：提高数据页的空间利用率，避免因频繁增删记录导致的页内空间碎片化。

6. Page Directory（页目录）：动态大小，页内的"小索引"

页目录是数据页的内部索引 ，可以理解为页内记录的"目录表"，结构为一个槽（slot）数组：[slot1, slot2, slot3, ...]，每个槽中存储了某条记录在页内的偏移地址。

由于页内记录按主键有序排列，InnoDB会将页内的记录分成多个组，每个组对应一个槽，槽中存储该组最后一条记录的偏移地址。当查询页内记录时，InnoDB会通过二分查找遍历页目录的槽，快速定位到目标记录所在的组，再遍历组内记录找到目标，而非从头遍历所有记录。

核心作用：将页内记录的查询时间复杂度从O(n)降低为O(logn)，实现页内记录的快速查找。

7. File Trailer（页尾）：8字节，页的"最终校验者"

页尾是数据页的最后一部分，仅包含两个核心字段：校验和 、LSN（日志序列号），且这两个字段与文件头中的对应字段完全一致。

核心作用：对数据页进行最终的完整性校验。InnoDB在将页写入磁盘时，会先写文件头和页体，最后写页尾；读取页时，会对比文件头和页尾的校验和、LSN，若不一致，说明页在磁盘读写过程中发生了损坏，InnoDB会触发数据恢复机制。

三、B+树与InnoDB的结合：数据的底层存储核心

理解了数据页的结构，我们就可以结合B+树 来解析InnoDB中数据的整体存储逻辑。InnoDB的核心设计是：将整张表的Data和Index组织成一棵B+树，数据页作为B+树的节点，这也是InnoDB索引与数据紧密结合的关键。

1. B+树的基本结构与特点

B+树是一种多路平衡查找树，与普通二叉树不同，B+树的每个节点可以有多个子节点，其核心特点完美适配磁盘IO的特性，也是其成为数据库索引核心结构的原因：

所有数据都存放在叶子节点 ，非叶子节点仅存储索引键值 + 子节点指针，不存储真实数据；
叶子节点通过双向链表相连，且按索引键值有序排列，极适合范围查询；
树高极低，通常为2~3层，即使是千万级别的数据，一次查询也仅需2~3次磁盘IO，大幅提升查询效率；
节点为数据页，B+树的每个节点对应一个InnoDB数据页，保证了磁盘读写的最小单位一致性。

2. InnoDB的聚簇索引：数据即索引，索引即数据

InnoDB中每张表都会有且仅有一个聚簇索引 ，这是InnoDB最核心的索引结构，其设计原则是：将表的行数据直接存储在聚簇索引B+树的叶子节点上 ，即聚簇索引的叶子节点就是数据页，数据页中存放着整行记录。

聚簇索引的构建规则

若表中显式定义了主键 ，则以主键作为聚簇索引的索引键；
若表中无显式主键，则选择第一个非空的唯一索引作为聚簇索引；
若表中无主键也无唯一索引，InnoDB会自动创建一个6字节的隐藏主键DB_ROW_ID（递增整数），作为聚簇索引的索引键。

聚簇索引B+树的结构示例

假设我们有一张用户表，显式定义了主键id：

sql 复制代码

CREATE TABLE user (
  id INT PRIMARY KEY,
  name VARCHAR(50),
  age INT
) ENGINE=InnoDB;

该表的聚簇索引B+树结构如下：

非叶子节点 ：由多个索引页组成，仅存储主键id值 + 子节点数据页的页号指针，用于索引导航；
叶子节点 ：由多个数据页组成，每个数据页中存放按主键id有序排列的整行记录（id, name, age + 隐藏列），且所有叶子节点通过双向链表相连。

核心特性 ：聚簇索引的主键顺序决定了表数据的物理存储顺序，因此按主键排序插入数据时，性能最优（无需频繁移动页内记录）。

3. InnoDB的二级索引：辅助索引，需回表查询

除了聚簇索引，我们为表创建的其他所有索引（如普通索引、唯一索引）都属于二级索引（也叫辅助索引）。二级索引是独立的B+树结构，其设计与聚簇索引有本质区别。

二级索引B+树的结构特点

索引键：以创建二级索引时指定的字段为索引键（如为name字段创建索引，则以name为索引键）；
非叶子节点 ：存储二级索引键值 + 子节点指针，与聚簇索引一致；
叶子节点 ：存储二级索引键值 + 聚簇索引的主键值 ，不存储整行记录。

二级索引的查询流程：回表查询

由于二级索引的叶子节点仅存储主键值，因此通过二级索引查询数据时，需要经历两步查询 ，即回表查询：

先在二级索引的B+树 中根据索引键值找到对应的主键值；
再根据主键值 到聚簇索引的B+树中查找对应的整行记录，这一步就是回表。

示例：为user表的name字段创建二级索引idx_name，查询name='Tom'的记录：

在idx_name的B+树中，根据Tom找到对应的主键id（如7）；
再在聚簇索引的B+树中，根据id=7找到对应的整行记录。

4. 聚簇索引与二级索引的核心对比

这是MySQL面试中的高频考点，核心对比总结如下：

对比项	聚簇索引 (Clustered Index)	二级索引 (Secondary Index)
叶子节点存储	整行完整记录	二级索引键值 + 主键值
查询是否回表	否，直接获取数据	是，需通过主键回表
唯一性	主键唯一，聚簇索引唯一	可重复（唯一索引除外）
存储顺序	按主键顺序物理存储	按二级索引键值顺序存储
查询性能	快，仅需一次B+树查询	稍慢，需两次B+树查询
数量限制	每张表仅一个	每张表可创建多个

四、核心面试题解析

结合本章内容，整理了InnoDB数据存储与B+树相关的高频面试题，附核心解答思路：

面试题1：InnoDB的最小读写单位是什么？为什么不是行？

解答：InnoDB的最小读写单位是页（16KB） ，而非行。原因是磁盘的IO操作是按块读写的，单次IO的最小单位远大于行的大小，若按行读写，会导致频繁的磁盘IO，大幅降低性能；而按页读写，能减少磁盘IO次数，利用预读特性提升效率，同时页的结构设计也能实现页内数据的高效管理。

面试题2：为什么InnoDB推荐使用自增主键？

解答：因为InnoDB的聚簇索引按主键物理存储数据，自增主键的特点是递增有序：

插入新记录时，直接在当前数据页的末尾分配空间，无需移动页内已有记录，插入性能高；
避免了非自增主键（如UUID）插入时，因主键无序导致的页分裂（数据页空间不足时，需要拆分页），减少磁盘碎片，提升空间利用率。

面试题3：什么是回表查询？如何避免回表？

解答：回表查询是指通过二级索引查询数据时，因二级索引叶子节点仅存储主键值，需要再通过主键到聚簇索引中查询整行记录的过程。

避免回表的方法 ：使用覆盖索引，即创建的二级索引包含查询所需的所有字段（索引键 + 查询列），此时InnoDB可直接从二级索引的叶子节点获取所有查询数据，无需回表。

示例：查询name='Tom'的age，创建索引idx_name_age (name, age)，该索引覆盖了查询的name和age字段，可避免回表。

面试题4：B+树为什么适合作为数据库的索引结构？

解答：核心原因是B+树的结构完美适配磁盘IO的特性 和数据库的查询需求：

树高极低，2~3层的B+树可支撑千万级数据，一次查询仅需2~3次磁盘IO，效率远高于二叉树；
非叶子节点仅存索引键，单个节点可存储更多索引项，减少磁盘IO次数；
叶子节点双向链表相连，极适合范围查询（如between、in），这是数据库中高频的查询场景；
所有数据存于叶子节点，查询的一致性高，且叶子节点为数据页，与InnoDB的存储单位一致。

五、本章核心总结

InnoDB的数据存储遵循表空间-段-区-页-行 的层级结构，页是最小的读写和存储单位，默认16KB；
数据页包含7个核心部分，从文件头到页尾形成了完整的管理、校验、查询体系，其中User Records 是核心数据区，Page Directory实现页内快速查询；
InnoDB的核心设计是聚簇索引B+树 ，数据即索引，索引即数据，聚簇索引的叶子节点存放整行记录，主键决定数据的物理存储顺序；
二级索引是独立的B+树，叶子节点仅存索引键+主键值，查询需回表，覆盖索引可避免回表；
B+树成为数据库索引核心的根本原因是适配磁盘IO特性，树高低、支持范围查询、节点存储效率高。

下一章我们将深入讲解InnoDB的索引优化技巧，结合实际业务场景分析如何创建高效的索引，避免索引失效，敬请关注！