Tree
1、前言
本文侧重在理论方面对平衡二叉树、红黑树、B树和B+树的各方面性能进行比较。不涉及编程方面的实现。而关于于平衡二叉树在C++中的实现,我的上一篇文章平衡二叉树(AVLTree)有所介绍。
2、平衡二叉树和红黑树
平衡二叉树又称平衡二叉搜索树,由于是Adelson-Velsky and Landis二人发明的,所以又叫AVL树。平衡二叉树要求左右子树的高度差不能大于一。所以极限条件下,搜索的时间复杂度是O(logn)。但由于其调整起来十分麻烦,所以并不适用于经常需要进行插入和删除的环境。因此引入红黑树(也是二叉搜索树的一种 )来解决这一问题。
红黑树,顾名思义是有红黑两种节点。然而对于红黑树的构成却有许多限制,我们先来看看这些限制。
- 1、根节点必须是黑色的。
- 2、不能有两个红节点构成亲子关系,即不能有两个连在一起的红节点。
- 3、从任意节点到叶子节点的所有路径都包含相同数目的黑节点。
- 4、所有叶子节点都是黑色的,这里的叶子节点指的是最末端的虚拟节点(NULL节点)。个人觉得,设置这些虚拟节点,是为了使限制3不失一般性。
通过以上四点设置便可以限制左右子树的高度差在一倍之内。我们不妨设一种极限情况,从根节点出来的左路径全是黑节点,右路径全是红黑交叉的节点。那么由于红节点不能两两相连,且右路径的黑节点数必须和做路径相同,所以右路径的节点是顶多是左路径的两倍。
如果把所有红色节点擦除,那么N个黑色节点所构成的必然是一颗平衡二叉树,搜索时的时间复杂度是logn。那么加上所有红色节点,由于极限情况下,最长路径是纯黑色节点的两倍。故而搜索时间复杂度是2logn,忽略常数项,那么复杂度还是O(logn)。
此外,基于红黑树的限制条件,在插入一个新的节点之后,红黑树的调整次数通常较少,大多数情况下不超过三次旋转。这是因为红黑树的设计允许它在维持平衡的同时允许某种程度的不完全平衡,因此调整的复杂性和频率通常低于AVL树。
至于如何插入节点,仅作了解吧。
首先,除了根节点之外,任何新增的节点都先被视为红节点,然后再进行以下判定。
这里的左旋右旋具体时如何操作的,和平衡二叉树那里基本差不多,所以不赘述了。
由于红黑树在搜索中,时间复杂度是O(logn),且插入节点所需的调整的频率也低于AVL树,所以应用比较广泛。如C++中map和set这两种容器的底层就是红黑树。
以map为例,在C++中,map和python的字典很想,其第一个元素被视为key,第二个元素被视为value。而key是不允许修改和重复的,存储key的数据结构正式红黑树。这也保证了map在搜索时,时间复杂度为O(logn)。
cpp
using namespace std;
map<int, int> myMap;
myMap[0] = 5;
myMap[1] = 7;
当然map也允许key是字符串类型,但即使是字符串类型,其还是会以红黑树的方式进行存储。只不过不再此时要按照字典顺序进行排序。
cpp
map<string, int> myMap1;
map<string, string> myMap2;
3、B树和B+树
B树和B+树都是被广泛应用的数据结构。它们最显著的特征便是每一个节点可以存放多个数据,且可以有N个子树。下图是B树的示意图。
在构建一棵B树的时候,需要预先定义它的阶数m,限制一个节点至多存放m-1个值,并且也表明一个节点至多可以有m个子树。故而B树也可以被叫做m叉树。
一颗m叉树的每一个节点大概长这样。
n表示这个节点存放n个数据,k1,k2,...,kn-1是这个节点存放的数据,这些数据从小到达依次排序。p0,p2,...,pn是指向子树的指针。其中p0所指的子树的值全部在0和k1之间,p1所指子树的值全部在k1和k2之间,以此类推。
3.1、B树的构建
为了方便演示,我所展示的一个B树是一棵三叉树,即m=3。然后我依次插入1,3,5,2。流程图如下,当我们插入的数大于3个数的时候,变会取中间的值变成一个新的节点。当然我应该再演示一下它有三个子树的情况,但已经懒得画了。。。
总之B树的构建大抵如此。
其实B树更像是在2叉树和单链表之间妥协的产物。因为在每一个节点上进行搜索,其实就相当于在链表上进行搜索,所以当m取很大的时候,其搜索时间复杂度就接近一个链表了。当然由于其是一个有序的链表,我们在节点上也可以进行二分查找以降低复杂度。总而言之,m的取值是两种数据结构的权衡,故而也很重要。
3.2、B树和B+树的区别
顾明思意B+树事B树的升级版,克服了B树的许多缺点,有更高的搜索效率。但它们之间的较量关乎内存和磁盘,我放在最后讲。先来看看B树和B+树在构成上的区别。
- 1、B+树的每一个子节点都会存储父节点的key,这里的key就是图中节点的值。
- 2、B+树的所有叶子节点(末端的那些节点)通过指针串在一起。因而B+树除了随机搜索的方式(从根节点开始搜索),还多了一种顺序搜索方式(直接从叶子节点开始按顺序搜索)。
以上两点就是B树和B+树从观感上比较明显的差别。但其核心差距还是在存储方式上。
3.3、数据的存储方式
前文反复提到了B树和B+树节点中存放的数字是一个key,key有钥匙的含义。之所以这样叫,是因为key是访问另一个信息的钥匙。以B树为例,很多时候,节点中的key存放的看似是一个数字,其实是一个段文本信息的代表。而如果希望这些文本信息不至于在程序结束的时候随着程序而丢失,我们就需要将其放入磁盘当中。
这就涉及到一些操作系统的知识。我们在运行一个程序的时候,实际上是在RAM(Random Access Memory)上开辟一块区域,此时如果需要读取看到磁盘中的内容,就需要通过I/O操作以block为单位去把磁盘中的内容加载进RAM中。这里的block是数据读取的最小单位。在B树中,一般一个节点的数据,包括key,key指向的文本信息,指针等都放在同一个block中。这样block存储的key就不会很多,那么搜索一个信息的时候就不得不读取很多个block,进行很多次I/O操作。而I/O操作时非常费时的。
为了解决这个问题,B+树在非叶子节点(末端节点)上,只存放key,而把各个节点key对应的文本信息都存放到最后一个叶子节点上。通过这样的操作,每个block,即每个非叶子节点能存放的key就大大增多。当我们搜索一个信息的时候,需要经过的节点就减少了,从而I/O操作的频率也随之降低,进而提高了搜索效率。这便是B树和B+树的核心区别。