B树与B+树全面解析

前言
[一、B 树的基本概念与结构特性](#一、B 树的基本概念与结构特性)
- [1.1 B 树的定义](#1.1 B 树的定义)
- [1.2 B 树的结构特性](#1.2 B 树的结构特性)
- [1.3 B 树的节点结构示例](#1.3 B 树的节点结构示例)
[二、B 树的基本操作](#二、B 树的基本操作)
- [2.1 查找操作](#2.1 查找操作)
- [2.2 插入操作](#2.2 插入操作)
- [2.3 删除操作](#2.3 删除操作)
[三、B + 树的基本概念与结构特性](#三、B + 树的基本概念与结构特性)
- [3.1 B + 树的定义](#3.1 B + 树的定义)
- [3.2 B + 树的结构特性](#3.2 B + 树的结构特性)
- [3.3 B + 树的节点结构示例](#3.3 B + 树的节点结构示例)
[四、B 树与 B + 树的对比](#四、B 树与 B + 树的对比)
[五、B 树与 B + 树的应用场景](#五、B 树与 B + 树的应用场景)
- [5.1 数据库索引](#5.1 数据库索引)
- [5.2 文件系统](#5.2 文件系统)
- [5.3 其他场景](#5.3 其他场景)
总结

前言

在数据存储与检索的领域中，B 树和 B + 树凭借出色的性能表现，成为数据库索引、文件系统等场景的核心数据结构。它们通过独特的多叉树结构和节点设计，有效减少了磁盘 I/O 操作次数，极大提升了数据查询效率。本文将深入剖析 B 树和 B + 树的结构特点、操作原理、性能差异及实际应用场景，结合丰富的图示与代码示例，帮助读者全面掌握这两种重要的数据结构。

一、B 树的基本概念与结构特性

1.1 B 树的定义

B 树是一种自平衡的多路搜索树，它允许每个节点拥有多个子节点和多个关键字。B 树的设计目标是为了高效地存储和检索数据，尤其是在磁盘等存储设备上，通过减少磁盘 I/O 操作来提高数据访问效率。

1.2 B 树的结构特性

节点关键字数量限制 ：B 树对每个节点的关键字数量有严格限制。假设 B 树的阶数为 m m m（ m ≥ 2 m \geq 2 m≥2），除根节点外，每个非叶子节点至少包含 ⌈ m / 2 ⌉ − 1 \lceil m/2 \rceil - 1 ⌈m/2⌉−1个关键字，最多包含 m − 1 m - 1 m−1个关键字；根节点至少有 1 个关键字，最多有 m − 1 m - 1 m−1个关键字。
子节点数量关系 ：每个节点的子节点数量等于其关键字数量加 1。例如，若一个节点有 n n n个关键字，那么它就有 n + 1 n + 1 n+1个子节点。
关键字有序性：节点内的关键字按升序排列，且左子树所有节点的关键字小于该节点的关键字，右子树所有节点的关键字大于该节点的关键字。这种有序性保证了 B 树的搜索效率。
树的平衡性 ：B 树通过插入和删除操作时的节点分裂与合并，保持树的平衡，确保从根节点到任意叶子节点的路径长度大致相同，从而避免树结构退化，保证操作的高效性。

1.3 B 树的节点结构示例

以 C++ 代码定义 B 树节点结构如下：

cpp 复制代码

// 定义B树节点结构
template <typename KeyType, int m>
struct BTreeNode {
    int n; // 节点中关键字的数量
    KeyType keys[m - 1]; // 存储关键字的数组
    BTreeNode* children[m]; // 存储子节点指针的数组
    bool leaf; // 标记是否为叶子节点
    BTreeNode() : n(0), leaf(true) {
        for (int i = 0; i < m; ++i) {
            children[i] = nullptr;
        }
    }
};

二、B 树的基本操作

2.1 查找操作

在 B 树中查找关键字时，从根节点开始，将待查找的关键字与节点内的关键字进行比较：

若找到相等的关键字，则查找成功。
若关键字小于节点内某个关键字，则进入对应的左子树继续查找。
若关键字大于节点内所有关键字，则进入最右侧的子树继续查找。
若遍历到叶子节点仍未找到，则查找失败。

2.2 插入操作

B 树的插入操作需要保证插入后树的结构特性。插入过程如下：

从根节点开始，找到合适的叶子节点插入关键字。
若插入后叶子节点的关键字数量未超过 m − 1 m - 1 m−1，则插入完成。
若插入后叶子节点关键字数量达到 m m m，则进行节点分裂：将节点中间的关键字上移到父节点，该节点分裂为两个节点，分别包含原节点的前半部分和后半部分关键字与子节点。若父节点也满了，则递归地对父节点进行分裂操作，直至根节点。若根节点分裂，则树的高度增加 1。

2.3 删除操作

B 树的删除操作较为复杂，需根据不同情况进行处理：

若待删除关键字在叶子节点且节点内关键字数量大于等于 ⌈ m / 2 ⌉ \lceil m/2 \rceil ⌈m/2⌉，直接删除该关键字。
若待删除关键字在叶子节点且节点内关键字数量等于 ⌈ m / 2 ⌉ − 1 \lceil m/2 \rceil - 1 ⌈m/2⌉−1，需检查兄弟节点：
- 若兄弟节点关键字数量大于 ⌈ m / 2 ⌉ − 1 \lceil m/2 \rceil - 1 ⌈m/2⌉−1，则从兄弟节点借一个关键字，并调整父节点的关键字。
- 若兄弟节点关键字数量也等于 ⌈ m / 2 ⌉ − 1 \lceil m/2 \rceil - 1 ⌈m/2⌉−1，则将兄弟节点与当前节点合并，并删除父节点中对应的关键字。若父节点因此关键字数量不足，则递归向上处理。
若待删除关键字在非叶子节点，可将其替换为该节点左子树的最大关键字或右子树的最小关键字，然后在相应子树中删除该关键字。

三、B + 树的基本概念与结构特性

3.1 B + 树的定义

B + 树是 B 树的一种变形，它进一步优化了数据查询性能，特别适用于范围查询和数据库索引。

3.2 B + 树的结构特性

关键字分布：所有关键字都存储在叶子节点，非叶子节点仅存储用于索引的关键字，这些关键字是其对应子树中关键字的最大值（或最小值）。
叶子节点链表：叶子节点通过指针连接成一个有序链表，方便进行范围查询。从第一个叶子节点开始，依次遍历链表，可获取所有数据。
节点关键字数量限制 ：与 B 树类似，B + 树对节点关键字数量也有要求。除根节点外，每个非叶子节点至少包含 ⌈ m / 2 ⌉ \lceil m/2 \rceil ⌈m/2⌉个关键字，最多包含 m m m个关键字；根节点至少有 1 个关键字，最多有 m m m个关键字。叶子节点至少包含 ⌈ m / 2 ⌉ \lceil m/2 \rceil ⌈m/2⌉个关键字，最多包含 m m m个关键字。
查询特性 ：在 B + 树中进行查询时，若查找的关键字在非叶子节点，查询会继续向下，直到叶子节点。这保证了任何查询都需要从根节点到叶子节点的相同路径长度，查询性能更加稳定。

3.3 B + 树的节点结构示例

用 C++ 定义 B + 树节点结构如下：

cpp 复制代码

// 定义B+树叶子节点结构
template <typename KeyType, int m>
struct BPlusTreeLeafNode {
    int n; // 节点中关键字的数量
    KeyType keys[m]; // 存储关键字的数组
    BPlusTreeLeafNode* next; // 指向下一个叶子节点的指针
    // 可添加指向数据记录的指针或其他相关数据
    BPlusTreeLeafNode() : n(0), next(nullptr) {}
};

// 定义B+树非叶子节点结构
template <typename KeyType, int m>
struct BPlusTreeInternalNode {
    int n; // 节点中关键字的数量
    KeyType keys[m]; // 存储关键字的数组
    BPlusTreeInternalNode* children[m + 1]; // 存储子节点指针的数组
    BPlusTreeInternalNode() : n(0) {
        for (int i = 0; i < m + 1; ++i) {
            children[i] = nullptr;
        }
    }
};

四、B 树与 B + 树的对比

特性	B 树	B + 树
关键字存储位置	非叶子节点和叶子节点都存储关键字	仅叶子节点存储关键字，非叶子节点用于索引
范围查询性能	需多次回溯，效率较低	可通过叶子节点链表快速遍历，效率高
插入删除复杂度	平均复杂度较低，极端情况可能导致较多调整	平均复杂度与 B 树相近，但调整更有规律
磁盘 I/O 次数	可能较多	相对较少，因为叶子节点存储所有数据
适用场景	适用于一般的文件系统和部分数据库索引	更适合数据库索引，尤其是范围查询频繁的场景

五、B 树与 B + 树的应用场景

5.1 数据库索引

B + 树是数据库索引的主流选择。在关系型数据库中，B + 树索引能够快速定位数据记录，无论是等值查询还是范围查询，都能提供高效的性能。例如，在 SQL 查询语句SELECT * FROM users WHERE age BETWEEN 18 AND 30中，B + 树索引可以通过叶子节点链表快速找到满足条件的数据。

5.2 文件系统

B 树常用于文件系统的目录结构和元数据管理。通过 B 树的结构，文件系统可以快速查找文件和目录，并且在文件创建、删除和修改时，保持良好的性能和结构稳定性。

5.3 其他场景

在数据仓库、搜索引擎的倒排索引等场景中，B 树和 B + 树也有广泛应用，用于优化数据的存储和检索效率。

总结

B 树和 B + 树作为高效的数据结构，通过独特的设计在数据存储与检索领域发挥着重要作用。B 树凭借平衡的多叉树结构，在多种场景下提供稳定的性能；B + 树则针对范围查询进行优化，成为数据库索引的首选。理解它们的结构原理、操作特性和应用场景，对于开发高性能的存储系统、优化数据库查询等工作具有重要意义。

That's all, thanks for reading!

图片均来自于网络, 感谢无私分享

觉得有用就点个赞、收进收藏夹吧！关注我，获取更多干货～