二叉树进阶,map和set

二叉搜索树

满足下面三个条件：

左子树所有结点的值，都小于根结点

右子树所有结点的值，都大于根结点

左右子树本身也都是二叉搜索树

1. 二叉搜索树的查找

a、从根开始比较，查找，比根大则往右边走查找，比根小则往左边走查找。 b、最多查找高度次，走到到空，还没找到，这个值不存在。

二叉搜索树的插入。插入的具体过程如下：

a. 树为空，则直接新增节点，赋值给root指针

b. 树不空，按二叉搜索树性质查找插入位置，插入新节点

1. **二叉搜索树的删除

首先查找元素是否在二叉搜索树中，如果不存在，则返回, 否则要删除的结点可能分下面四种情况：

a. 要删除的结点无孩子结点

b. 要删除的结点只有左孩子结点

c. 要删除的结点只有右孩子结点

d. 要删除的结点有左、右孩子结点

实际情况a可以与情况b或者c合并起来，因此真正的删除过程如下：

情况b：删除该结点且使被删除节点的双亲结点指向被删除节点的左孩子结点--直接删除

情况c：删除该结点且使被删除节点的双亲结点指向被删除结点的右孩子结点--直接删除

情况d：在它的右子树中寻找中序下的第一个结点(关键码最小)，用它的值填补到被删除节点中，再来处理该结点的删除问题--替换法删除。

去它的右子树找最小结点或者去它的左子树找最大结点然后：用那个替代结点的值覆盖当前待删结点，再去删除那个替代结点

首先查找元素是否在二叉搜索树中，如果不存在，则返回, 否则要删除的结点可能分下面四种情

况：

a. 要删除的结点无孩子结点

b. 要删除的结点只有左孩子结点

c. 要删除的结点只有右孩子结点

d. 要删除的结点有左、右孩子结点

看似删除节点有4种情况，但实际上a和b和c可以合并，这样就只有2种情况了：

a:待删除的结点无孩子/只有一个孩子：删除结点并使父亲结点指向被删除结点的孩子结点（无孩子视为孩子是空结点，任意指向一个即可）

b:待删除的结点有左右孩子：采用替换法，寻找删除结点右子树的最小结点（右子树最左结点），将最小结点的值和删除结点的值替换，然后删除最小结点（此时最小结点，要么没有孩子，要么只有一个孩子，符合a情况可以直接删除）

二叉搜索树的应用

K模型：K模型即只有key作为关键码，结构中只需要存储Key即可，关键码即为需要搜索到的值
KV模型：每一个关键码key，都有与之对应的值Value，即的键值对。

性能分析

BST 的插入和删除都得先查找
所以查找效率决定整体性能

最好情况

如果树接近完全二叉树，那么树高大约是 log₂N，平均比较次数也是 log₂N。这时 BST 很高效。

最坏情况

如果插入顺序很差，比如有序插入：1, 2, 3, 4, 5。那 BST 会退化成一条链（因为 BST 不自平衡 ）。这时平均比较次数接近 N/2。也就是说：

本来希望像二分查找一样快
结果退化后，接近顺序查找

这就是 BST 最大的问题。

能不能不管按什么顺序插入，都让性能保持接近最优？答案就是：

AVL 树
红黑树

它们的作用就是：在插入删除后，尽量维持树的平衡，避免退化。

map和set

序列式容器 → 关联式容器 → 键值对 pair → map/set/multimap/multiset → 底层平衡搜索树 → AVL / 红黑树 → 为什么 STL 最后选红黑树

理解：

为什么需要 map 和 set
它们和 vector/list 这类容器本质区别是什么
为什么它们查找快、还能保持有序
为什么底层不是普通二叉搜索树，而是红黑树

关联式容器

1. 序列式容器是什么

像 vector、list、deque、forward_list 这些，底层是线性序列的数据结构 ，里面存的是"元素本身"。比如：vector<int> 里放的是 int ,list<string> 里放的是 string.它们更强调"按顺序存储"。

2. 关联式容器是什么

关联式容器也是存数据的，但和序列式容器不同的是，它存的不是简单元素，而是键值关系 ，也就是 <key, value> 结构。这样做的好处是：在检索数据时，效率通常比序列式容器高。

键值对 pair：关联式容器的基础

cpp 复制代码

template <class T1, class T2>
 struct pair 
{
 typedef T1 first_type;
 typedef T2 second_type;
 T1 first;
 T2 second;
 pair(): first(T1()), second(T2())
 {}
 pair(const T1& a, const T2& b): first(a), second(b)
 {}
 };

在 map<Key, T> 里，底层元素类型不是单独的 Key 或 T，而是：pair<const Key, T>。map 中 key 是唯一的，并且不能修改。

树形结构的关联式容器有哪些

STL 实现了两种不同结构的关联式容器：树形结构；哈希结构

本节主要讲的是树形结构这四个：map set multimap multiset。这四个容器的共同点是：底层都使用平衡搜索树（红黑树）；容器中的元素是有序序列

set:"有序且去重"的集合。

模板参数列表：

set 是按照一定次序存储元素的容器
在 set 里，value 本身就标识它自己，也就是 value 就是 key
每个 value 必须唯一
set 中元素不能修改
内部按比较规则进行严格弱排序
底层是二叉搜索树，更准确说是红黑树

set 的核心特点

第一：元素唯一

重复元素插不进去，所以很适合做去重。

第二：有序

遍历 set 时，得到的是一个有序序列。默认按小于比较。

第三：查找快

查找某个元素时间复杂度为 O(log₂ n)。

第四：元素不能修改

因为一修改，排序依据就可能失效，树的有序结构会被破坏。set 中元素总是 const。

set的使用：

ste模板参数列表：

set的构造

函数声明	功能介绍
`set (const Compare& comp = Compare(), const Allocator& = Allocator());`	构造空的 set
`set (InputIterator first, InputIterator last, const Compare& comp = Compare(), const Allocator& = Allocator());`	用 [first, last) 区间中的元素构造 set
`set (const set<Key,Compare,Allocator>& x);`	set 的拷贝构造函数

set 的迭代器

函数声明	功能介绍
`iterator begin()`	返回指向 set 中起始位置（第一个元素）的迭代器
`iterator end()`	返回指向 set 中最后一个元素之后位置的迭代器
`const_iterator cbegin() const`	返回指向起始位置的 const 迭代器
`const_iterator cend() const`	返回指向最后一个元素之后位置的 const 迭代器
`reverse_iterator rbegin()`	返回指向最后一个元素的反向迭代器（即 `end`位置）
`reverse_iterator rend()`	返回指向第一个元素之前位置的反向迭代器（即 `begin`之前）
`const_reverse_iterator crbegin() const`	返回指向最后一个元素的反向 const 迭代器（即 `cend`）
`const_reverse_iterator crend() const`	返回指向第一个元素之前位置的反向 const 迭代器（即 `cbegin`之前）

set的容量

函数声明	功能介绍
`bool empty() const`	检测 set 是否为空，空返回 `true`，否则返回 `false`
`size_type size() const`	返回 set 中有效元素的个数

set修改操作

函数声明	功能介绍
`pair<iterator,bool> insert (const value_type& x);`	在set中插入元素x（实际插入的是`<x,x>`构成的键值对）。如果插入成功，返回`<该元素在set中的位置，true>`；如果插入失败，说明x在set中已经存在，返回`<x在set中的位置，false>`。
`void erase (iterator position);`	删除set中`position`位置上的元素。
`size_type erase (const key_type& x);`	删除set中值为`x`的元素，返回删除的元素的个数。
`void erase (iterator first, iterator last);`	删除set中`[first,last]`区间中的元素。
`void swap (set<Key,Compare,Allocator>& st);`	交换set中的元素。
`void clear ();`	将set中的元素清空。
`iterator find (const key_type& x) const;`	返回set中值为`x`的元素的位置。
`size_type count (const key_type& x) const;`	返回set中值为`x`的元素的个数。

set::insert 为什么返回 pair<iterator, bool>

因为 set 不允许重复。插入一个值时，会有两种情况：

以前没有，插入成功

返回：这个值所在位置 + true
以前已经有了，插入失败

返回：原来那个值所在位置 + false

这个设计非常巧妙它同时解决两个问题：

告诉你插没插进去
告诉你这个值最终在哪里

map: 就是"有序字典"或者"有序映射表"。

比如：

"apple" -> "苹果"
"banana" -> "香蕉"

map 是关联容器，按 key 的比较次序存储由 key 和 value 组成的元素
key 用于排序和唯一标识元素
value 存储与 key 关联的内容
map 内部元素总按 key 比较排序
map 支持 [] 操作，通过 key 找 value
map 通常实现为平衡二叉搜索树（红黑树）

map的使用

map的模板参数

key: 键值对中key的类型

T：键值对中value的类型

Compare: 比较器的类型，map中的元素是按照key来比较的，缺省情况下按照小于来比较，一般情况下(内置类型元素)该参数不需要传递，如果无法比较时(自定义类型)，需要用户自己显式传递比较规则(一般情况下按照函数指针或者仿函数来传递)

Alloc：通过空间配置器来申请底层空间，不需要用户传递，除非用户不想使用标准库提供的空间配置器

注意：在使用map时，需要包含头文件。

1. map 的构造

函数声明	功能介绍
`map()`	构造一个空的 map

map 的迭代器

函数声明	功能介绍
`begin()`和 `end()`	`begin`：首元素的位置，`end`：最后一个元素的下一个位置
`cbegin()`和 `cend()`	与 `begin`和 `end`意义相同，但 `cbegin`和 `cend`所指向的元素不能修改
`rbegin()`和 `rend()`	反向迭代器，`rbegin`在 `end`位置，`rend`在 `begin`位置，其 `++`和 `--`操作与 `begin`和 `end`操作移动相反
`crbegin()`和 `crend()`	与 `rbegin`和 `rend`位置相同，操作相同，但 `crbegin`和 `crend`所指向的元素不能修改

map 的容量与元素访问

函数声明	功能介绍
`bool empty () const`	检测 map 中的元素是否为空，是返回 `true`，否则返回 `false`
`size_type size() const`	返回 map 中有效元素的个数
`mapped_type& operator[] (const key_type& k)`	返回 key 对应的 value

问题：当key不在map中时，通过operator获取对应value时会发生什么问题？

在元素访问时，有一个与operator[]类似的操作at()(该函数不常用)函数，都是通过 key找到与key对应的value然后返回其引用，不同的是：当key不存在时，operator[]用默认 value与key构造键值对然后插入，返回该默认value，at()函数直接抛异常。

map中元素的修改

函数声明	功能简介
`pair<iterator,bool> insert (const value_type& x)`	在map中插入键值对`x`。返回值是一个键值对：`iterator`代表新插入元素的位置，`bool`代表是否插入成功。
`void erase (iterator position)`	删除`position`位置上的元素。
`size_type erase (const key_type& x)`	删除键值为`x`的元素。
`void erase (iterator first, iterator last)`	删除`[first,last)`区间中的元素。
`void swap (map<Key,T,Compare,Allocator>& mp)`	交换两个map中的元素。
`void clear ()`	将map中的元素清空。
`iterator find (const key_type& x)`	在map中查找 key为`x`的元素。找到则返回该元素位置的迭代器，否则返回`end()`。
`const_iterator find (const key_type& x) const`	在map中查找 key为`x`的元素。找到则返回该元素位置的const迭代器，否则返回`cend()`。
`size_type count (const key_type& x) const`	返回key为`x`的键值在map中的个数。由于map中key是唯一的，因此该函数的返回值要么为0，要么为1，因此也可以用该函数来检测一个key是否存在。

map 和 set 的根本区别

set只关心一个值在不在。

map关心"一个 key 对应什么 value"。

例如：

set: 存单词，检查拼写是否存在
map: 存单词和释义，查单词得到释义

【总结】 1. map中的的元素是键值对

map中的key是唯一的，并且不能修改
默认按照小于的方式对key进行比较
map中的元素如果用迭代器去遍历，可以得到一个有序的序列
map的底层为平衡搜索树(红黑树)，查找效率比较高 $O(log_2 N)$
支持[]操作符，operator[]中实际进行插入查找。

multimap

. Multimaps是关联式容器，它按照特定的顺序，存储由key和value映射成的键值对，其中多个键值对之间的key是可以重复的。

multimap 存储 <key, value>

key 可以重复

底层仍然按 key 排序

底层仍是红黑树

和 map 唯一不同就是 key 是否可重复

注意： 1. multimap中的key是可以重复的。 2. multimap中的元素默认将key按照小于来比较 3. multimap中没有重载operator[]操作。 4. 使用时与map包含的头文件相同

multimap中的接口可以参考map，功能都是类似的。

底层结构

map/set等关联式容器的底层通常用平衡二叉搜索树（如红黑树）实现，而非普通的二叉搜索树。这是因为若使用普通二叉搜索树，当插入有序数据时，树会退化成近似单链的结构，使操作时间复杂度上升为O(N)。平衡树通过特定的旋转规则维持树的平衡，从而保证了操作的高效性（O(log N)）。

AVL 树

AVL树是一种自平衡的二叉搜索树 。它的核心特点是：在插入或删除节点后，会通过旋转操作自动调整树的结构，确保任何节点的左右子树高度差不超过1，从而维持树的平衡，保证查找、插入、删除等操作的时间复杂度稳定在 O(log n)。

定义：

• 左右子树都是 AVL

• 左右子树高度差绝对值不超过 1

• 这个高度差叫平衡因子，通常是 -1/0/1

• 若有 n 个结点，高度可保持在 O(log₂ n)，搜索复杂度也为 O(log₂ n)

AVL树节点的定义：

cpp 复制代码

template<class T>
 struct AVLTreeNode
 {
 AVLTreeNode(const T& data)
     : _pLeft(nullptr), _pRight(nullptr), _pParent(nullptr)
     ,  _data(data), _bf(0)
 {}

 AVLTreeNode<T>* _pLeft;    // 该节点的左孩子
AVLTreeNode<T>* _pRight;  // 该节点的右孩子
AVLTreeNode<T>* _pParent; // 该节点的双亲
T _data;
 int _bf; // 该节点的平衡因子                 
};

AVL树的插入

AVL树就是在二叉搜索树的基础上引入了平衡因子，因此AVL树也可以看成是二叉搜索树。那么 AVL树的插入过程可以分为两步： 1. 按照二叉搜索树的方式插入新节点 2. 调整节点的平衡因子

/* pCur插入后，pParent的平衡因子一定需要调整，在插入之前，pParent 的平衡因子分为三种情况：-1，0, 1, 分以下两种情况：

如果pCur插入到pParent的左侧，只需给pParent的平衡因子-1即可
如果pCur插入到pParent的右侧，只需给pParent的平衡因子+1即可此时：pParent的平衡因子可能有三种情况：0，正负1，正负2
如果pParent的平衡因子为0，说明插入之前pParent的平衡因子为正负1，插入后被调整成0，此时满足 AVL树的性质，插入成功
如果pParent的平衡因子为正负1，说明插入前pParent的平衡因子一定为0，插入后被更新成正负1，此时以pParent为根的树的高度增加，需要继续向上更新
如果pParent的平衡因子为正负2，则pParent的平衡因子违反平衡树的性质，需要对其进行旋转处理 */

AVL树的旋转

四种失衡情况

左旋：冲突的左孩变右孩。右旋则反之

新节点插入较高左子树的左侧---左左：右单旋

新节点插入较高右子树的右侧---右右：左单旋

新节点插入较高左子树的右侧---左右：先左单旋再右单旋

将双旋变成单旋后再旋转，即：先对30进行左单旋，然后再对90进行右单旋，旋转完成后再考虑平衡因子的更新。

新节点插入较高右子树的左侧---右左：先右单旋再左单旋

总结：假如以pParent为根的子树不平衡，即pParent的平衡因子为2或者-2，分以下情况考虑

pParent的平衡因子为2，说明pParent的右子树高，设pParent的右子树的根为pSubR 当pSubR的平衡因子为1时，执行左单旋当pSubR的平衡因子为-1时，执行右左双旋
pParent的平衡因子为-2，说明pParent的左子树高，设pParent的左子树的根为pSubL 当pSubL的平衡因子为-1是，执行右单旋当pSubL的平衡因子为1时，执行左右双旋旋转完成后，原pParent为根的子树个高度降低，已经平衡，不需要再向上更新。

AVL树的验证

1**. 验证其为二叉搜索树**如果中序遍历可得到一个有序的序列，就说明为二叉搜索树

2**. 验证其为平衡树** 每个节点子树高度差的绝对值不超过1(注意节点中如果没有平衡因子) 节点的平衡因子是否计算正确

cpp 复制代码

int _Height(PNode pRoot);
 bool _IsBalanceTree(PNode pRoot)
 {
 // 空树也是AVL树
if (nullptr == pRoot) return true;
 // 计算pRoot节点的平衡因子：即pRoot左右子树的高度差
int leftHeight = _Height(pRoot->_pLeft);
 int rightHeight = _Height(pRoot->_pRight);
 int diff = rightHeight - leftHeight;

// 如果计算出的平衡因子与pRoot的平衡因子不相等，或者
// pRoot平衡因子的绝对值超过1，则一定不是AVL树
if (diff != pRoot->_bf || (diff > 1 || diff < -1))
 return false;
 // pRoot的左和右如果都是AVL树，则该树一定是AVL树
return _IsBalanceTree(pRoot->_pLeft) && _IsBalanceTree(pRoot
>_pRight);
 }

红黑树

红黑树，是一种二叉搜索树，但在每个结点上增加一个存储位表示结点的颜色，可以是Red或 Black。通过对任何一条从根到叶子的路径上各个结点着色方式的限制，红黑树确保没有一条路径会比其他路径长出俩倍，因而是接近平衡的。

性质：1. 每个结点不是红色就是黑色：利用这两种颜色去限制树形结构。

根节点是黑色的
如果一个节点是红色的，则它的两个孩子结点是黑色的
对于每个结点，从该结点到其所有后代叶结点的简单路径上，均包含相同数目的黑色结点
每个叶子结点都是黑色的(此处的叶子结点指的是空结点)

为什么满足上面的性质，红黑树就能保证：其最长路径中节点个数不会超过最短路径节点个数的两倍？

答：最短路径，尽量全是黑节点；最长路径，黑节点之间夹红节点；又因为所有路径要求黑节点数必须一致，所以出现了这种情况：最短路径全为黑节点，最长路径两黑一红，所以最长路径就是最短路径的两倍。

结点的定义;

cpp 复制代码

enum Color{RED, BLACK};// 节点的颜色

 template<class ValueType>// 红黑树节点的定义
 struct RBTreeNode
 {
 RBTreeNode(const ValueType& data = ValueType()，Color color = RED)

     : _pLeft(nullptr), _pRight(nullptr), _pParent(nullptr)

     ,  _data(data), _color(color)

    {}
RBTreeNode<ValueType>* _pLeft;    // 节点的左孩子

RBTreeNode<ValueType>* _pRight;  // 节点的右孩子

RBTreeNode<ValueType>* _pParent; // 节点的双亲(红黑树需要旋转，为了实现简单给出该字段)

ValueType _data;// 节点的值域

Color _color;// 节点的颜色
};

**在节点的定义中，为什么要将节点的默认颜色给成红色？：**插红只可能破坏"双红"，插黑可能破坏"整条路径黑高"

如果插入黑色，会更容易破坏黑高 假设你插入一个黑节点，那么它所在路径上的黑节点数立刻 +1。这就很容易破坏性质：所有路径黑节点数相同。

一旦黑高不一致，调整起来很麻烦，影响会一路向上。

如果插入红色，通常不影响黑高

因为红节点不计入黑节点数量，所以插入红节点后：黑高通常没变；唯一可能破坏的是性质 3：父子不能同红。而"双红冲突"只需要局部修正，成本更低。

红黑树结构

为了后续实现关联式容器简单，红黑树的实现中增加一个头结点，

head->_parent 指向根
head->_left 指向最小节点
head->_right 指向最大节点

红黑树插入

先把节点塞进去，再补平衡：

1.按照二叉搜索树规则插入新节点：

//a. 按照二叉搜索的树方式插入新节点

// b. 检测新节点插入后，红黑树的性质是否造到破坏

// 根节点的颜色可能被修改，将其改回黑色：pRoot->_color = BLACK;

检测新节点插入后，红黑树的性质是否造到破坏，若满足直接退出，否则对红黑树进行旋转着色处理

新节点的默认颜色是红色，因此：如果其双亲节点的颜色是黑色，没有违反红黑树任何性质，则不需要调整；

但当新插入节点的双亲节点颜色为红色时，就违反了性质三不能有连在一起的红色节点，此时需要对红黑树分情况来讨论：约定:cur为当前节点，p为父节点，g为祖父节点，u为叔叔节点

情况一: cur为红，p为红，g为黑，u存在且为红。

解决方式：将p,u改为黑，g改为红，然后把g当成cur，继续向上调整。

情况二: cur为红，p为红，g为黑，u不存在/u存在且为黑

p为g的左孩子，cur为p的左孩子，则进行右单旋转；相反， p为g的右孩子，cur为p的右孩子，则进行左单旋转 p、g变色--p变黑，g变红

情况三: cur为红，p为红，g为黑，u不存在/u存在且为黑

p为g的左孩子，cur为p的右孩子，则针对p做左单旋转；相反， p为g的右孩子，cur为p的左孩子，则针对p做右单旋转则转换成了情况2

红黑树的验证

红黑树的检测分为两步： 1. 检测其是否满足二叉搜索树(中序遍历是否为有序序列) 2. 检测其是否满足红黑树的性质

红黑树与AVL树的比较

红黑树和AVL树都是高效的平衡二叉树，增删改查的时间复杂度都是O(log_2 N)，红黑树不追求绝对平衡，其只需保证最长路径不超过最短路径的2倍，相对而言，降低了插入和旋转的次数，所以在经常进行增删的结构中性能比AVL树更优，而且红黑树实现比较简单，所以实际运用中红黑树更多。

红黑树的应用

C++ STL库 -- map/set、mutil_map/mutil_set 2. Java 库 3. linux内核 4. 其他一些库

红黑树模拟实现STL中的map与set

红黑树的迭代器

STL明确规定，begin()与end()代表的是一段前闭后开的区间，而对红黑树进行中序遍历后，可以得到一个有序的序列，因此：begin()可以放在红黑树中最小节点(即最左侧节点)的位置，end()放在最大节点(最右侧节点)的下一个位置，关键是最大节点的下一个位置在哪块？能否给成nullptr呢？答案是行不通的，因为对end()位置的迭代器进行--操作，必须要能找最后一个元素，此处就不行，因此最好的方式是将end()放在头结点的位置：

operator++()与operator--()

改造红黑树

map的模拟实现

map的底层结构就是红黑树，因此在map中直接封装一棵红黑树，然后将其接口包装下即可

set的模拟实现

set的底层为红黑树，因此只需在set内部封装一棵红黑树，即可将该容器实现出来