本文主要介绍了数据结构的堆(树的概念、二叉树的概念、顺序结构的结构及实现、堆的实现、堆排序、TopK问题),内容全由作者原创(无AI),并带有配图帮助博友们更好的理解,点个关注不迷路,下面进入正文~~
目录
[1.2 树的相关概念](#1.2 树的相关概念)
[1.3 树的表示](#1.3 树的表示)
[2.2 特殊的二叉树](#2.2 特殊的二叉树)
[2.4 二叉树的存储结构](#2.4 二叉树的存储结构)
[3.1 二叉树的顺序结构](#3.1 二叉树的顺序结构)
[3.2 堆的概念及结构](#3.2 堆的概念及结构)
[3.3.1 堆的创建](#3.3.1 堆的创建)
[3.3.2 堆的插入](#3.3.2 堆的插入)
[3.3.3 堆的删除](#3.3.3 堆的删除)
[3.3.4 降序和升序的实现(堆排序)](#3.3.4 降序和升序的实现(堆排序))
[3.3.5 建堆的时间复杂度](#3.3.5 建堆的时间复杂度)
[3.3.6 堆的代码实现](#3.3.6 堆的代码实现)
1.树概念及结构
1.1树的概念
树是一种非线性 的数据结构,它是由n(n>=0)个有限结点组成一个具有层次关系的集合。把它叫做树是因为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的 。
有一个特殊的结点,称为根结点 ,根结点没有前驱结点
除根结点外,其余结点被分成M(M>0)个互不相交的集合T1、T2、......、Tm ,其中每一个集合(1<=i<=m)又是一棵结构与树类似的子树。每棵子树的根结点有且只有一个前驱,可以有0个或多个后继
因此,树是递归定义的。
1.2 树的相关概念

结点的度 :一个结点含有的子树的个数称为该结点的度;如上图:A的为6
叶结点或终端结点 :度为0的结点称为叶结点;如上图:B、C、H、I...等结点为叶结点
非终端结点或分支结点 :度不为0的结点;如上图:D、E、F、G...等结点为分支结点
双亲结点或父结点 :若一个结点含有子结点,则这个结点称为其子结点的父结点;如上图:A是B的父结点
孩子结点或子结点 :一个结点含有的子树的根结点称为该结点的子结点;如上图:B是A的孩子结点
兄弟结点 :具有相同父结点的结点互称为兄弟结点;如上图:B、C是兄弟结点
树的度 :一棵树中,最大的结点的度称为树的度;如上图:树的度为6
结点的层次 :从根开始定义起,根为第1层,根的子结点为第2层,以此类推;
树的高度或深度 :树中结点的最大层次;如上图:树的高度为4
堂兄弟结点 :双亲在同一层的结点互为堂兄弟;如上图:H、I互为堂兄弟结点
结点的祖先 :从根到该结点所经分支上的所有结点;如上图:A是所有结点的祖先
子孙 :以某结点为根的子树中任一结点都称为该结点的子孙。如上图:所有结点都是A的子孙
森林:由m(m>0)棵互不相交的树的集合称为森林;
1.3 树的表示
树结构相对线性表就比较复杂了,要存储表示起来就比较麻烦了,既然保存值域,也要保存结点和结点之间的关系 ,实际中树有很多种表示方式如:双亲表示法,孩子表示法、孩子双亲表示法以及孩子兄弟表示法等。我们这里就简单的了解其中最常用的孩子兄弟表示法。
cpp
typedef int DataType;
struct Node
{
struct Node* firstChild; // 第一个孩子结点
struct Node* pNextBrother; // 指向其下一个兄弟结点
DataType data; // 结点中的数据域
};

2.二叉树概念及结构
2.1概念
一棵二叉树是结点的一个有限集合,该集合:
-
或者为空
-
由一个根结点加上两棵别称为左子树和右子树的二叉树组成

从上图可以看出:
-
二叉树不存在度大于2的结点
-
二叉树的子树有左右之分,次序不能颠倒,因此二叉树是有序树
注意:对于任意的二叉树都是由以下几种情况复合而成的:

2.2 特殊的二叉树
-
满二叉树:一个二叉树,如果每一个层的结点数都达到最大值,则这个二叉树就是满二叉树。也就是说,如果一个二叉树的层数为K,且结点总数是2^k-1,则它就是满二叉树。
-
完全二叉树 :完全二叉树是效率很高的数据结构,完全二叉树是由满二叉树而引出来的。对于深度为K的,有n个结点的二叉树,当且仅当其每一个结点都与深度为K的满二叉树中编号从1至n的结点一一对应时称之为完全二叉树。 要注意的是满二叉树是一种特殊的完全二叉树。(不能中间有空位 )

2.3二叉树的性质
-
若规定根结点的层数为1,则一棵非空二叉树的第i层上最多有2^(i-1)个结点。
-
若规定根结点的层数为1,则深度为h的二叉树的最大结点数是2^h-1。
-
对任何一棵二叉树, 如果度为0其叶结点个数为n0, 度为2的分支结点个数为n2,则有n0=n2+1
-
若规定根结点的层数为1,具有n个结点的满二叉树的深度,h=log₂(n+1)。
-
对于具有n个结点的完全二叉树,如果按照从上至下从左至右的数组顺序对所有结点从0开始编号,则对于序号为i的结点有:
• 若i>0,i位置结点的双亲序号:(i-1)/2;i=0,i为根结点编号,无双亲结点
• 若2i+1<n,左孩子序号:2i+1,2i+1>=n,否则无左孩子
• 若2i+2<n,右孩子序号:2i+2,2i+2>=n,否则无右孩子
注意:结论5必须是完全二叉树才能使用
2.4 二叉树的存储结构
二叉树一般可以使用两种结构存储,一种顺序结构,一种链式结构。
- 顺序存储
顺序结构存储就是使用数组来存储 ,一般使用数组只适合表示完全二叉树 ,因为不是完全二叉树会有空间的浪费。而现实中使用中只有堆才会使用数组来存储。二叉树顺序存储在物理上是一个数组,在逻辑上是一颗二叉树。
- 链式存储
二叉树的链式存储结构是指,用链表来表示一棵二叉树,即用链来指示元素的逻辑关系。 通常的方法是链表中每个结点由三个域组成,数据域和左右指针域,左右指针分别用来给出该结点左孩子和右孩子所在的链结点的存储地址。链式结构又分为二叉链和三叉链。
3.二叉树的顺序结构及实现
3.1 二叉树的顺序结构
普通的二叉树是不适合用数组来存储的,因为可能会存在大量的空间浪费。而完全二叉树更适合使用顺序结构存储。现实中我们通常把堆(一种二叉树)使用顺序结构的数组来存储,需要注意的是这里的堆和操作系统虚拟进程地址空间中的堆是两回事,一个是数据结构,一个是操作系统中管理内存的一块区域分段 。
3.2 堆的概念及结构
当堆的逻辑结构是完全二叉树,且任何一个父亲大于等于孩子,我们称之为大堆
特点:根是最大的 
当堆的逻辑结构是完全二叉树,且任何一个父亲小于等于孩子,我们称之为小堆
特点:根是最小的 
3.3堆的实现
堆的基本结构以及需要实现的功能
cpp
typedef int HPDataType;
typedef struct Heap
{
HPDataType* a;
int capacity;
int size;
}HP;
void Swap(HPDataType* p1, HPDataType* p2);
void AdjustUp(HPDataType* a, int child);
void AdjustDown(HPDataType* a, int n, int parent);
void HPInit(HP* php);
void HPDestroy(HP* php);
void HPPush(HP* php, HPDataType x);
void HPPop(HP* php);
HPDataType HPTop(HP* php);
bool HPEmpty(HP* php);
3.3.1 堆的创建
a.向上调整算法

以上图的数据为例子,当前这个数据结构是完全不符合堆的,现在我们要让他变成大堆 。
我们使用向上调整算法,从上往下建堆。下标为零的元素只有根节点,无需我们排,因此我们从下标为1的元素开始排。
我们可以通过当前节点的下标减1再除以2找到父节点,比较他们的大小,如果子节点比父节点大,就交换这两个节点的数据。子节点的指针指向原来的父亲节点,父亲节点再由子节点的下标减1再除以2找到新父节点,直到子节点小于父节点或为子节点小于等于0就跳出循环。
下面是向上排序算法的完整代码:
cpp
void Swap(HPDataType* p1, HPDataType* p2)
{
HPDataType tmp = *p1;
*p1 = *p2;
*p2 = tmp;
}
void AdjustUp(HPDataType* a, int child)
{
int parent = (child - 1) / 2;
while (child > 0)
{
if (a[child] < a[parent])
{
Swap(&a[child], &a[parent]);
child = parent;
parent = (child - 1) / 2;
}
else
{
break;
}
}
}
当我们有了向上排序算法后,我们可以从数组下标为1的数据开始调用,直到将最后一个数据完成排序,最后数据结构会变成下图:
b.向下调整算法

我们使用向下调整算法,从下往上建堆。叶节点(如图中的7、9、6、5)只有根节点,无需我们排,因此我们从第一个不是叶节点的节点开始向下排(如图中的1)。
我们通过父节点找到子节点,子节点有两个,我们先找出比较大的子节点,再和父节点进行比较,如果子节点比父节点大,就交换子节点和父节点的值,然后父节点的指针指向原来的子节点,子节点指向新的子节点,直到子节点的下标大于等于n就跳出循环或子节点比父节点小就跳出循环。
下面为向下调整算法的完整代码:
cpp
void AdjustDown(HPDataType* a, int n, int parent)
{
int child = parent * 2 + 1;
while (child < n)
{
if (child + 1 < n && a[child + 1] > a[child])
{
child++;
}
if (a[child] > a[parent])
{
Swap(&a[child], &a[parent]);
parent = child;
child = parent * 2 + 1;
}
else
{
break;
}
}
}
需要注意的是,我们使用假设法,假设左孩子节点是较大的,如果右孩子比左孩子大,就让child为右孩子的。在这个过程中,我们会访问右孩子,那如果左孩子已经是堆的最后一个数据了,这时再去访问右孩子就会造成越界访问,因此我们需要加入限制条件child + 1 < n。
在建立堆的时候,最后一个数据的下标是n-1,那么最后一个非叶节点的下标应是**(n-1-1)/2。**
在这两种算法中,向下调整算法更优,后文我会详细解答。
3.3.2 堆的插入

先将要插入的数据插入到数组的尾上,再进行向上调整算法,直到满足堆。
3.3.3 堆的删除
删除堆是删除堆顶的数据,将堆顶的数据根最后一个数据一换,然后删除数组最后一个数据,再进行向下调整算法。

值得注意的是,直接删除最后一个数据会更方便,但是没有意义,因为只有堆顶的数据是最大值或最小值。
3.3.4 降序和升序的实现(堆排序)
结论:
降序建小堆,升序建大堆
这个结论是反常规的,因为小堆本身就是小的数在前面,而降序又是要求大数在前面,那为什么要这样做呢?
因为在堆里面有效的数据其实就只有堆顶,当堆是小堆时,栈顶就是最小的数据,这时我们把栈顶的数据交换,再让新的栈顶数据向下排序,,这样就能确定最小数据的位置。新的栈顶是第二小的数据,重复上述操作,就又能确定第二小的位置,直到所有数据都完成排序。
如果建立的是大堆,最大的数据已经确定在堆顶了,但是第二大的数据很难找,因为兄弟节点是很难比较的,他们本身是没有什么关系的,如果强行将数据移动,很可能会使数据的关系全乱了。

下面是详细代码:
cpp
void HeapSort(int* a, int n)
{
// 降序,建小堆
// 升序,建大堆
for (int i = 1; i < n; i++)
{
AdjustUp(a, i);
}
/*for (int i = (n - 1 - 1) / 2; i >= 0; i--)
{
AdjustDown(a, n, i);
}*/
int end = n - 1;
while (end > 0)
{
Swap(&a[0], &a[end]);
AdjustDown(a, end, 0);
--end;
}
}
3.3.5建堆的时间复杂度
向上排序算法:


向下排序算法:

由此可得,向上排序算法的时间复杂度是O(N*logN) ,而向下排序算法的时间复杂度是
O(N) ,很明显在创建堆时,向下排序算法更优
3.3.6 堆的代码实现
cpp
typedef int HPDataType;
typedef struct Heap
{
HPDataType* a;
int capacity;
int size;
}HP;
void Swap(HPDataType* p1, HPDataType* p2);
void AdjustUp(HPDataType* a, int child);
void AdjustDown(HPDataType* a, int n, int parent);
void HPInit(HP* php);
void HPDestroy(HP* php);
void HPPush(HP* php, HPDataType x);
void HPPop(HP* php);
HPDataType HPTop(HP* php);
bool HPEmpty(HP* php);
void HPInit(HP* php)
{
assert(php);
php->a = NULL;
php->capacity = php->size = 0;
}
void HPDestroy(HP* php)
{
assert(php);
free(php->a);
php->a = NULL;
php->capacity = php->size = 0;
}
void Swap(HPDataType* p1, HPDataType* p2)
{
HPDataType tmp = *p1;
*p1 = *p2;
*p2 = tmp;
}
void AdjustUp(HPDataType* a, int child)
{
int parent = (child - 1) / 2;
while (child > 0)
{
if (a[child] < a[parent])
{
Swap(&a[child], &a[parent]);
child = parent;
parent = (child - 1) / 2;
}
else
{
break;
}
}
}
void HPPush(HP* php, HPDataType x)
{
assert(php);
if (php->capacity == php->size)
{
int newcapacity = php->capacity == 0 ? 4 : 2 * php->capacity;
HPDataType* tmp = (HPDataType*)realloc(php->a,newcapacity * sizeof(HPDataType));
if (tmp == NULL)
{
perror("malloc");
return;
}
php->a = tmp;
php->capacity = newcapacity;
}
php->a[php->size] = x;
php->size++;
AdjustUp(php->a, php->size - 1);
}
void AdjustDown(HPDataType* a, int n, int parent)
{
int child = parent * 2 + 1;
while (child < n)
{
if (child + 1 < n && a[child + 1] > a[child])
{
child++;
}
if (a[child] > a[parent])
{
Swap(&a[child], &a[parent]);
parent = child;
child = parent * 2 + 1;
}
else
{
break;
}
}
}
void HPPop(HP* php)
{
assert(php);
assert(php->size > 0);
Swap(&php->a[0], &php->a[php->size - 1]);
php->size--;
AdjustDown(php->a, php->size, 0);
}
HPDataType HPTop(HP* php)
{
assert(php);
assert(php->size > 0);
return php->a[0];
}
bool HPEmpty(HP* php)
{
assert(php);
return php->size == 0;
}
void HeapSort(int* a, int n)
{
// 降序,建小堆
// 升序,建大堆
for (int i = 1; i < n; i++)
{
AdjustUp(a, i);
}
/*for (int i = (n - 1 - 1) / 2; i >= 0; i--)
{
AdjustDown(a, n, i);
}*/
int end = n - 1;
while (end > 0)
{
Swap(&a[0], &a[end]);
AdjustDown(a, end, 0);
--end;
}
}
4.TopK问题
TopK问题就是在N个数中找最大的前K个
方法:用前K个数建一个小堆,剩下的数据跟栈顶数据比较,如果比栈顶的数据大,就替代堆顶进堆,然后向下调整
这个小堆的K个数,就是最大的前K个数
结语:
这篇文章全文由作者手写,图片由画图软件所制,无AI制作,希望各位博友能有所收获
欢迎各位博友的讨论,觉得不错的小伙伴,别忘了点赞关注哦~
