这篇文章将会讲述和堆有关的一些内容
目录
[3.2 TopK问题](#3.2 TopK问题)
1.堆的概念及结构
堆,一种特殊的完全二叉树(不知道这个定义的可以去看上一篇文章)
论其定义:如果有一个关键码的集合K = { k0,k1 ,k2 ,...,kn-1 },把它的所有元素按完全二叉树的顺序存储方式存储 在一个一维数组中,并满足:Ki<=K2i+1 且 Ki<=K2i+2 (Ki>=K2i+1 且 Ki>=K2i+2 )i = 0,1, 2...,则称为小堆(或大堆)。将根结点最大的堆叫做最大堆或大根堆,根结点最小的堆叫做最小堆或小根堆。
简单理解 就是越往上越小就是小堆,越往上越大就是大堆。
在程序中,我们习惯用数组存储堆
所以用代码来表示一个堆就应该是这样:
cpp
typedef int HPDataType;
typedef struct Heap {
HPDataType* _a;
int _size;
int _capacity;
}HP;
堆的性质
- 堆中某个结点的值总是不大于或不小于其父结点的值;
- 堆总是一棵完全二叉树
一定要注意的一点: 小堆并不意味着从前到后为升序排列, 大堆也不意味着从前到后为降序排列!!
2.和堆有关的一些方法
2.1向堆中插入元素
cpp
//插入
void HPPush(HP* php, HPDataType x);
这里指的是向原本就是堆结构的数组中插入元素
此时我们要了解一种算法:向上调整法
向上调整法
这种算法就是将元素从堆底依次与父亲比较,调整到堆顶,以保证这里依旧是个堆
cpp
//向上调整
void AdjustUp(HPDataType* pa, int child)
{
int parent = (child - 1) / 2;
while (child > 0)
{
if (pa[child] < pa[parent])
{
Swap(&pa[child], &pa[parent]);
child = parent;
parent = (child - 1) / 2;
}
else {
break;
}
}
}
因此,向堆中每插入一个元素,就是对这个元素进行一次向上调整
代码如下:
cpp
//插入
void HPPush(HP* php, HPDataType x)
{
assert(php);
//检查容量
if (php->_capacity == php->_size)
{
int newcapacity = php->_capacity == 0 ? 4 : 2 * php->_capacity;
HPDataType* a = (HPDataType*)realloc(php->_a, sizeof(int) * newcapacity);
if (a == NULL)
{
perror("realloc newcapacity fail");
return;
}
php->_a = a;
php->_capacity = newcapacity;
}
//插入数据
php->_a[php->_size] = x;
AdjustUp(php->_a, php->_size);
php->_size++;
}
2.2删除堆顶元素
我们知道删除一个元素的前提是这个地方不能为空,所以先有判空的代码:
cpp
//判空
bool HPEmpty(HP* php)
{
return php->_size==0;
}
对于一个非空堆,删除一个元素,要用到一个算法:向下调整法
向下调整法
向下调整法就是把堆中某个位置的元素与其父母比较,调整到堆底,以保证这里依旧是个堆
代码如下:
cpp
//向下调整
void AdjustDown(HPDataType* pa, int parent, int n)
{
int child = parent * 2 + 1;
while (child < n)
{
//假设左孩子小
if (child + 1 < n && pa[child] > pa[child + 1])//一定要考虑右孩子是否越界
{
child++;
}
//父亲大于孩子,交换
if(pa[child]< pa[parent])
{
Swap(&pa[child], &pa[parent]);
parent = child;
child = parent * 2 + 1;
}
else {
break;
}
}
}
值得注意的是:要进行向下调整的元素其左右分支都为同类型堆时,才能保证向下调整后还是一个堆
那么接下来就要删除堆顶元素了
这里的主要思想步骤是
- 将堆顶元素与堆底元素互换位置
- 堆的size--
- 将换过来的堆顶元素进行向下调整
代码如下:
cpp
//删除堆顶元素
void HPPop(HP* php)
{
assert(php);
assert(!HPEmpty(php));
Swap(&php->_a[0], &(php->_a[php->_size - 1]));
php->_size--;
//向下调整
AdjustDown(php->_a, 0,php->_size);
}
3.堆的应用
3.1堆排序
堆排序即利用堆的思想来进行排序,总共分为两个步骤:
1. 建堆
- 升序:建大堆
- 降序:建小堆
2. 利用堆删除思想来进行排序
建堆和堆删除中都用到了向下调整,因此掌握了向下调整,就可以完成堆排序。
这里有一个动图:
代码如下:
cpp
void HeapSort(int* a, int n)
{
// 降序,建小堆
// 升序,建大堆
//降序
for (int i = (n - 1 - 1)/2; i >= 0; i--)
{
AdjustDown(a, i, n);
}
int end = n - 1;
while (end)
{
Swap(&a[0], &a[end]);
AdjustDown(a, 0, end);
end--;
}
}
关于为什么要用向下调整法而不是向上调整法:
其实两个都可以实现堆的创建,不过在这里向下调整法的效率更高
关于为什么升序:建大堆,降序:建小堆:
因为在堆删除中(以升序举例),大堆在删除时会将最大的堆顶元素移到最后,size--,在将次大的元素移到倒数第二个,size--......符合升序的规律。
3.2 TopK问题
即求数据结合中前K个最大的元素或者最小的元素,一般情况下数据量都比较大。
比如:专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。
对于Top-K问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了(可能 数据都不能一下子全部加载到内存中)。最佳的方式就是用堆来解决,基本思路如下:
1. 用数据集合中前K个元素来建堆
- 前k个最大的元素,则建小堆
- 前k个最小的元素,则建大堆
2. 用剩余的N-K个元素依次与堆顶元素来比较,不满足则替换堆顶元素
将剩余N-K个元素依次与堆顶元素比完之后,堆中剩余的K个元素就是所求的前K个最小或者最大的元素。
cpp
void PrintTopK(int k)
{
int* arr=(int*)malloc(sizeof(int)*k);
//读取k个数
FILE* fout = fopen("data.txt", "r");
if (fout == NULL)
{
perror("fopen error");
return;
}
int i;
for (i = 0; i < k; i++)
{
fscanf(fout, "%d", &arr[i]);
}
//建堆
for (i = (k - 1 - 1) / 2; i >= 0; i--)
{
AdjustDown(arr, i, k);
}
//比较剩下n-k个数据
int x;
while (fscanf(fout, "%d", &x) > 0)
{
if (x > arr[0])
{
arr[0] = x;
AdjustDown(arr, 0, k);
}
}
fclose(fout);
fout = NULL;
//
for (i=k-1; i >=0; i--)
{
printf("%d ", arr[i]);
}
}
OK,关于堆的分享就到这里啦,感谢您的观看,如果对您有帮助的话,三连支持一下孩子吧~