1. 红黑树的概念
红黑树是⼀棵⼆叉搜索树,他的每个结点增加⼀个存储位来表⽰结点的颜色,可以是红色或者黑色。通过对任何⼀条从根到叶子的路径上各个结点的颜色进行约束,红黑树确保没有⼀条路径会比其他路径长出2倍,因而是接近平衡的。
最长路径 <= 最短路径*2
1.1 红黑树的规则
- 每个结点不是红色就是黑色
- 根节点是黑色的
- 如果一个结点是红色,则它的两个孩子结点必须是黑色,也就是说任意一条路径不会有连续的红色结点
- 对于任意一个结点,从该结点到其所有NULL结点的简单路径上,均包含相同数量的黑色结点
说明:《算法导论》等书籍上补充了⼀条每个叶子结点(NIL)都是黑色的规则。他这⾥所指的叶子结点不是传统的意义上的叶子结点,而是我们说的空结点,有些书籍上也把NIL叫做外部结点。NIL是为了方便准确的标识出所有路径,《算法导论》在后续讲解实现的细节中也忽略了NIL结点,所以我们知道⼀下这个概念即可。



注意,路径是从根节点到NIL的所有情况,上面的红黑树就一共有九条路径
1.2 思考一下,红黑树如何确保最长路径不超过最短路径的2倍的?
- 由规则4可知,从根到NULL结点的每条路径都有相同数量的黑色结点,所以极端场景下,最短路径就就是全是黑色结点的路径,假设最短路径⻓度为bh(black height)。
- 由规则2和规则3可知,任意⼀条路径不会有连续的红⾊结点,所以极端场景下,最⻓的路径就是一黑一红间隔组成,那么最长路径的⻓度为2*bh。
- 综合红黑树的4点规则⽽⾔,理论上的全黑最短路径和⼀黑⼀红的最长路径并不是在每棵红黑树都存在的。假设任意⼀条从根到NULL结点路径的长度为x,那么bh <= h <= 2*bh。
1.3 红黑树的效率
假设N是红⿊树树中结点数量,h最短路径的⻓度,那么2^h - 1 <= 2^(2*h) -1,由此推出h ≈ logN ,也就是意味着红黑树增删查改最坏也就是走最长路径 2 ∗ logN ,那么时间复杂度还是O(logN)
红黑树的表达相对AVL树要抽象⼀些,AVL树通过⾼度差直观的控制了平衡。红黑树通过4条规则的颜色约束,间接的实现了近似平衡 ,他们效率都是同⼀档次,但是相对而言,插入相同数量的结点,红黑树的旋转次数是更少的,因为他对平衡的控制没那么严格。


2. 红黑树的实现
2.1 红黑树的结构
cpp
// 枚举值表⽰颜⾊
enum Colour
{
RED,
BLACK
};
// 这⾥我们默认按key/value结构实现
template<class K, class V>
struct RBTreeNode
{
// 这⾥更新控制平衡也要加⼊parent指针
pair<K, V> _kv;
RBTreeNode<K, V>* _left;
RBTreeNode<K, V>* _right;
RBTreeNode<K, V>* _parent;
Colour _col;
RBTreeNode(const pair<K, V>& kv)
:_kv(kv)
, _left(nullptr)
, _right(nullptr)
, _parent(nullptr)
{}
};
template<class K, class V>
class RBTree
{
typedef RBTreeNode<K, V> Node;
public:
private:
Node* _root = nullptr;
};
2.2 红黑树的插入
2.2.1 红黑树树插入一个值的大概过程
- 插入⼀个值按⼆叉搜索树规则进⾏插入,插入后我们只需要观察是否符合红黑树的4条规则。
- 如果是空树插入,新增结点是黑色结点。如果是非空树插入,新增结点必须红色结点,因为非空树插入,新增黑色结点就破坏了规则4,规则4是很难维护的。
- ⾮空树插入后,新增结点必须红色结点,如果父亲结点是黑色的,则没有违反任何规则,插入结束
- ⾮空树插入后,新增结点必须红色结点,如果父亲结点是红色的,则违反规则3。进⼀步分析,c是红⾊,p为红,g必为黑,这三个颜⾊都固定了,关键的变化看u的情况,需要根据u分为以下几种情况分别处理。
说明:下图中假设我们把新增结点标识为c (cur),c的⽗亲标识为p(parent),p的⽗亲标识为
g(grandfather),p的兄弟标识为u(uncle)。
2.2.2 情况1:变色
c为红,p为红,g为⿊,u存在且为红,则将p和u变⿊,g变红。在把g当做新的c,继续往上更新。
分析:因为p和u都是红⾊,g是黑⾊,把p和u变黑,左边子树路径各增加⼀个黑色结点,g再变红,相当于保持g所在子树的黑色结点的数量不变,同时解决了c和p连续红⾊结点的问题,需要继续往上更新是因为,g是红⾊,如果g的⽗亲还是红⾊,那么就还需要继续处理;如果g的⽗亲是黑色,则处理结束了;如果g就是整棵树的根,再把g变回黑色。
情况1只变⾊,不旋转。所以⽆论c是p的左还是右,p是g的左还是右,都是上⾯的变⾊处理⽅式。

- 跟AVL树类似,上图我们展示了⼀种具体情况,但是实际中需要这样处理的有很多种情况。
- 下图将以上类似的处理进行了抽象表达,d/e/f代表每条路径拥有hb个⿊⾊结点的⼦树,a/b代表每条路径拥有hb-1个⿊⾊结点的根为红的⼦树,hb>=0。


2.2.3 情况2:单旋+变色
c为红,p为红,g为⿊,u不存在或者u存在且为黑,u不存在,则c⼀定是新增结点(若c是新增结点,则违反规则4),u存在且为黑,则c⼀定不是新增,c之前是黑色的(若c是新增结点,则违反规则4),是在c的子树中插入,符合情况1,变⾊将c从黑色变成红色,更新上来的。
分析:p必须变黑,才能解决,连续红色结点的问题,u不存在或者是黑色的,这⾥单纯的变色无法解决问题,需要旋转+变色。

如果p是g的左,c是p的左,那么以g为旋转点进⾏右单旋,再把p变黑,g变红即可。p变成这颗树新的根,这样子树黑色结点的数量不变,没有连续的红色结点了,且不需要往上更新,因为p的父亲是黑色还是红色或者空都不违反规则。

如果p是g的右,c是p的右,那么以g为旋转点进行左单旋,再把p变黑,g变红即可。p变成课这颗树新的根,这样子树黑色结点的数量不变,没有连续的红色结点了,且不需要往上更新,因为p的⽗亲是黑色还是红色或者空都不违反规则。



2.2.4 情况3:双旋+变色
c为红,p为红,g为黑,u不存在或者u存在且为黑,u不存在,则c⼀定是新增结点,u存在且为黑,则c⼀定不是新增,c之前是黑色的,是在c的子树中插入 ,符合情况1,变⾊将c从黑色变成红色,更新上来的。
分析:p必须变黑,才能解决,连续红色结点的问题,u不存在或者是黑色的,这⾥单纯的变色⽆法解决问题,需要旋转+变色。

如果p是g的左,c是p的右,那么先以p为旋转点进行左单旋,再以g为旋转点进⾏右单旋,再把c变
黑,g变红即可 。c变成这颗树新的根,这样子树黑色结点的数量不变,没有连续的红色结点了,且不需要往上更新,因为c的⽗亲是黑色还是红色或者空都不违反规则。

如果p是g的右,c是p的左,那么先以p为旋转点进行右单旋,再以g为旋转点进⾏左单旋,再把c变
黑,g变红即可 。c变成这棵树新的根,这样子树黑色结点的数量不变,没有连续的红色结点了,且不需要往上更新,因为c的⽗亲是黑色还是红色或者空都不违反规则。



2.3 红黑树的插入代码实现
旋转代码的实现跟AVL树是⼀样的,只是不需要更新平衡因子
cpp
bool Insert(const pair<K, V>& kv)
{
if (_root == nullptr)
{
_root = new Node(kv);
_root->_col = BLACK;
return true;
}
Node* parent = nullptr;
Node* cur = _root;
while (cur)
{
if (cur->_kv.first < kv.first)
{
parent = cur;
cur = cur->_right;
}
else if (cur->_kv.first > kv.first)
{
parent = cur;
cur = cur->_left;
}
else
{
return false;
}
}
// 新增红色
cur = new Node(kv);
cur->_col = RED;
if (parent->_kv.first < kv.first)
{
parent->_right = cur;
}
else
{
parent->_left = cur;
}
cur->_parent = parent;
// 插入结点后,检查是否变色
while (parent && parent->_col == RED)
{
Node* grandfather = parent->_parent;
if (grandfather->_left == parent)
{
// g
// p u
//c
Node* uncle = grandfather->_right;
// 叔叔存在且为空
if (uncle && uncle->_col == RED)
{
// 变色+继续往上处理
parent->_col = uncle->_col = BLACK;
grandfather->_col = RED;
cur = grandfather;
parent = cur->_parent;
}
else // 叔叔不存在或者叔叔存在且为黑
{
// g
// p u
//c
// 单旋+变色
if (parent->_left == cur)
{
RotateR(grandfather);
parent->_col = BLACK;
grandfather->_col = RED;
}
// g
// p u
// c
// 双旋+变色
else
{
RotateL(parent);
RotateR(grandfather);
cur->_col = BLACK;
grandfather->_col = RED;
}
break; // 结点已经变为黑色了,不需要再向上更新了
}
}
else
{
// g
// u p
// c
Node* uncle = grandfather->_left;
// 叔叔为红色
if (uncle && uncle->_col == RED)
{
uncle->_col = parent->_col = BLACK;
grandfather->_col = RED;
cur = grandfather;
parent = cur->_parent;
}
// 叔叔为空或者叔叔为黑色
else
{
// g
// u p
// c
// 单旋 + 变色
if (parent->_right == cur)
{
RotateL(grandfather);
parent->_col = BLACK;
grandfather->_col = RED;
}
// g
// u p
// c
// 双旋 + 变色
else
{
RotateR(parent);
RotateL(grandfather);
cur->_col = BLACK;
grandfather->_col = RED;
}
break;
}
}
}
_root->_col = BLACK;
return true;
}
2.4 红黑树的查找
按⼆叉搜索树逻辑实现即可,搜索效率为 O(logN)
cpp
Node* Find(const K& key)
{
Node* cur = _root;
while (cur)
{
if (cur->_kv.first < key)
{
cur = cur->_right;
}
else if (cur->_kv.first > key)
{
cur = cur->_left;
}
else
{
return cur;
}
}
return nullptr;
}
2.5 红黑树的验证
这⾥获取最长路径和最短路径,检查最长路径不超过最短路径的2倍是不可行的,因为就算满足这个条件,红黑树也可能颜色不满足规则,当前暂时没出问题,后续继续插⼊还是会出问题的。所以我们还是去检查4点规则,满⾜这4点规则,⼀定能保证最长路径不超过最短路径的2倍。

- 规则1枚举颜色类型,天然实现保证了颜色不是黑色就是红色。
- 规则2直接检查根即可
- 规则3前序遍历检查,遇到红色结点查孩子不太方便,因为孩子有两个,且不⼀定存在,反过来检查⽗亲的颜色就方便多了。
- 规则4前序遍历,遍历过程中用形参记录跟到当前结点的blackNum(黑色结点数量),前序遍历遇到黑色结点就++blackNum,走到空就计算出了⼀条路径的黑色结点数量。再任意⼀条路径黑色结点数量作为参考值,依次比较即可。

代码:
cpp
// 是否是红黑树
bool IsBalanceTree()
{
if(_root && _root->_col == RED)
{
return false;
}
Node* cur = _root;
int left_bn = 0;
while(cur)
{
if (cur->_col == BLACK)
{
left_bn++;
}
cur = cur->_left;
}
return _CheckColour(_root, 0, left_bn);
}
cpp
// root_cur_bn 根到当前节点路径上黑色节点的数量
// 前序递归
bool _CheckColour(Node* root, int root_cur_bn, int left_bn)
{
if (root == nullptr)
{
// 检查每条路径的黑色节点的数量
if (root_cur_bn != left_bn)
{
//
cout << "黑色结点的数量不相等" << endl;
return false;
}
return true;
}
if (root->_col == BLACK)
{
root_cur_bn++;
}
// 检查连续的红色节点
if (root->_col == RED && root->_parent && root->_parent->_col == RED)
{
cout << root->_kv.first << "存在连续红色结点" << endl;
return false;
}
return _CheckColour(root->_left, root_cur_bn, left_bn)
&& _CheckColour(root->_right, root_cur_bn, left_bn);
}
Test.cpp
cpp
void TestRBTree1()
{
RBTree<int, int> t;
// 常规的测试用例
int a[] = { 16, 3, 7, 11, 9, 26, 18, 14, 15 };
//int a[] = { 4, 2, 6, 1, 3, 5, 15, 7, 16, 14 };
for (auto e : a)
{
if (e == 7)
{
int i = 0;
}
t.Insert({ e, e });
cout << "Insert:" << e << "->";
//t.InOrder();
cout << t.IsBalanceTree() << endl;
}
t.InOrder();
cout << t.IsBalanceTree() << endl;
}

红黑树的效率验证:
cpp
// 插入一堆随机值,测试平衡,顺便测试一下高度和性能等
void TestRBTree2()
{
const int N = 1000000;
vector<int> v;
v.reserve(N);
srand(time(0));
for (size_t i = 0; i < N; i++)
{
v.push_back(rand() + i);
}
size_t begin2 = clock();
RBTree<int, int> t;
for (auto e : v)
{
t.Insert(make_pair(e, e));
}
size_t end2 = clock();
cout << "Insert:" << end2 - begin2 << endl;
cout << t.IsBalanceTree() << endl;
cout << "Height:" << t.Height() << endl;
cout << "Size:" << t.Size() << endl;
size_t begin1 = clock();
// 确定在的值
/*for (auto e : v)
{
t.Find(e);
}*/
// 随机值
for (size_t i = 0; i < N; i++)
{
t.Find((rand() + i));
}
size_t end1 = clock();
cout << "Find:" << end1 - begin1 << endl;
}
int main()
{
TestRBTree1();
return 0;
}
