在数据库索引的底层实现中,B 树(Balanced Tree) 和 B+ 树(Balanced Plus Tree) 是两种常见的数据结构。MySQL 的 InnoDB 存储引擎默认采用 B+ 树索引,而不是普通的 B 树。那么,它们之间究竟有什么区别?为什么 MySQL 更倾向于使用 B+ 树?本文将带你深入理解。
一、为什么数据库需要 B/B+ 树?
在数据库中,索引是提高查询性能的核心手段。
而索引结构必须满足两个条件:
-
能够保持有序 ------ 以支持范围查询(如
BETWEEN
、>
、<
)。 -
能够高效查找 ------ 降低磁盘 I/O 次数。
二叉查找树虽然也能支持有序和查找,但在海量数据场景下,树的高度可能很深,导致磁盘 I/O 频繁。而 B 树和 B+ 树通过 多路平衡查找 的方式,显著降低了树的高度,提升了性能,因此成为数据库索引的首选。
二、B 树(B-Tree)简介
B 树是一种 多路平衡查找树,常用于文件系统和数据库索引。其主要特征:
-
一个节点可以有多个孩子(m 阶 B 树最多 m 个孩子)。
-
节点中存储 key 和 data,每个 key 对应一条数据。
-
所有叶子节点的深度相同,树始终保持平衡。
B 树的结构示例(3 阶 B 树)
[30] / \ [10,20] [40,50,60]
-
每个非叶子节点存储 索引 + 数据。
-
查找时可能在非叶子节点就能找到数据。
三、B+ 树(B+Tree)简介
B+ 树是 B 树的一种变体,也是 MySQL InnoDB 索引的底层结构。
主要特征:
-
非叶子节点只存储索引,不存储数据,数据全部存在叶子节点。
-
叶子节点通过链表相连,便于范围查询和顺序遍历。
-
树的高度更低 ------ 因为非叶子节点只存索引,所以能容纳更多 key。
B+ 树的结构示例(3 阶 B+ 树)
[30] / \ [10,20] [40,50,60] | | [10,data]...[20,data]...[60,data] (叶子节点双向链表连接)
-
非叶子节点只负责索引,数据都放在叶子节点。
-
范围查询效率非常高。
四、B 树 vs B+ 树的区别
对比项 | B 树 | B+ 树 |
---|---|---|
数据存储位置 | 索引和数据都存储在所有节点中 | 数据只存储在叶子节点,非叶子节点只存索引 |
查询效率 | 查找数据可能在中间节点结束,稳定性较差 | 必须到叶子节点才能找到数据,查询路径更稳定 |
磁盘 I/O | 每个节点能存的数据较少,树的高度相对高 | 非叶子节点更小,扇出更大,树高度更低,I/O 次数更少 |
范围查询 | 范围查询需要中序遍历整棵树 | 叶子节点链表天然支持范围查询,效率更高 |
排序能力 | 不保证叶子节点顺序存储 | 叶子节点通过链表顺序连接,天然有序 |
应用场景 | 文件系统、部分索引场景 | 数据库索引的首选(如 MySQL InnoDB) |
五、为什么 MySQL 选择 B+ 树而不是 B 树?
-
减少磁盘 I/O
-
数据库索引存在磁盘中,查询时会触发磁盘 I/O。
-
B+ 树非叶子节点不存储数据,能容纳更多索引,使树的高度更低,磁盘访问次数更少。
-
-
范围查询更高效
-
B 树需要通过中序遍历实现范围查询,效率低。
-
B+ 树叶子节点链表相连,范围查询只需遍历链表,效率极高。
-
-
更适合数据库的分页和排序
- 数据库常见需求是
ORDER BY
、LIMIT
,而 B+ 树的叶子节点有序链表天生支持这些操作。
- 数据库常见需求是
-
查询稳定性
-
B 树可能在非叶子节点就找到数据,导致每次查询路径不同。
-
B+ 树所有查询都走到叶子节点,路径长度一致,查询性能更稳定。
-
六、总结
-
B 树:索引和数据混合存储,查询可能在中间节点结束,适合较小数据量或文件系统场景。
-
B+ 树:非叶子节点只存索引,数据集中在叶子节点,叶子节点链表顺序连接,更适合数据库索引。
因此,MySQL InnoDB 存储引擎选择 B+ 树作为索引结构 ,主要是为了 减少磁盘 I/O、提高范围查询效率和查询稳定性。