这篇文章将会讲述和堆有关的一些内容
目录
[3.2 TopK问题](#3.2 TopK问题)
1.堆的概念及结构
堆,一种特殊的完全二叉树(不知道这个定义的可以去看上一篇文章)
论其定义:如果有一个关键码的集合K = { k0,k1 ,k2 ,...,kn-1 },把它的所有元素按完全二叉树的顺序存储方式存储 在一个一维数组中,并满足:Ki<=K2i+1 且 Ki<=K2i+2 (Ki>=K2i+1 且 Ki>=K2i+2 )i = 0,1, 2...,则称为小堆(或大堆)。将根结点最大的堆叫做最大堆或大根堆,根结点最小的堆叫做最小堆或小根堆。

简单理解 就是越往上越小就是小堆,越往上越大就是大堆。
在程序中,我们习惯用数组存储堆

所以用代码来表示一个堆就应该是这样:
            
            
              cpp
              
              
            
          
          typedef int HPDataType;
typedef struct Heap {
	HPDataType* _a;
	int _size;
	int _capacity;
}HP;
        堆的性质
- 堆中某个结点的值总是不大于或不小于其父结点的值;
 - 堆总是一棵完全二叉树
 
一定要注意的一点: 小堆并不意味着从前到后为升序排列, 大堆也不意味着从前到后为降序排列!!
2.和堆有关的一些方法
2.1向堆中插入元素
            
            
              cpp
              
              
            
          
          //插入
void HPPush(HP* php, HPDataType x);
        这里指的是向原本就是堆结构的数组中插入元素
此时我们要了解一种算法:向上调整法
向上调整法
这种算法就是将元素从堆底依次与父亲比较,调整到堆顶,以保证这里依旧是个堆
            
            
              cpp
              
              
            
          
          //向上调整
void AdjustUp(HPDataType* pa, int child)
{
	int parent = (child - 1) / 2;
	while (child > 0)
	{
		if (pa[child] < pa[parent])
		{
			Swap(&pa[child], &pa[parent]);
			child = parent;
			parent = (child - 1) / 2;
		}
		else {
			break;
		}
	}
}
        因此,向堆中每插入一个元素,就是对这个元素进行一次向上调整
代码如下:
            
            
              cpp
              
              
            
          
          //插入
void HPPush(HP* php, HPDataType x)
{
	assert(php);
	//检查容量
	if (php->_capacity == php->_size)
	{
		int newcapacity = php->_capacity == 0 ? 4 : 2 * php->_capacity;
		HPDataType* a = (HPDataType*)realloc(php->_a, sizeof(int) * newcapacity);
		if (a == NULL)
		{
			perror("realloc newcapacity fail");
			return;
		}
		php->_a = a;
		php->_capacity = newcapacity;
	}
	//插入数据
	php->_a[php->_size] = x;
	AdjustUp(php->_a, php->_size);
	php->_size++;
}
        2.2删除堆顶元素
我们知道删除一个元素的前提是这个地方不能为空,所以先有判空的代码:
            
            
              cpp
              
              
            
          
          //判空
bool HPEmpty(HP* php)
{
	return php->_size==0;
}
        对于一个非空堆,删除一个元素,要用到一个算法:向下调整法
向下调整法
向下调整法就是把堆中某个位置的元素与其父母比较,调整到堆底,以保证这里依旧是个堆
代码如下:
            
            
              cpp
              
              
            
          
          //向下调整
void AdjustDown(HPDataType* pa, int parent, int n)
{
	int child = parent * 2 + 1;
	while (child < n)
	{
		//假设左孩子小
		if (child + 1 < n && pa[child] > pa[child + 1])//一定要考虑右孩子是否越界
		{
			child++;
		}
		//父亲大于孩子,交换
		if(pa[child]< pa[parent])
		{
			Swap(&pa[child], &pa[parent]);
			parent = child;
			child = parent * 2 + 1;
		}
		else {
			break;
		}
	}
}
        值得注意的是:要进行向下调整的元素其左右分支都为同类型堆时,才能保证向下调整后还是一个堆
那么接下来就要删除堆顶元素了
这里的主要思想步骤是
- 将堆顶元素与堆底元素互换位置
 - 堆的size--
 - 将换过来的堆顶元素进行向下调整
 
代码如下:
            
            
              cpp
              
              
            
          
          //删除堆顶元素
void HPPop(HP* php)
{
	assert(php);
	assert(!HPEmpty(php));
	Swap(&php->_a[0], &(php->_a[php->_size - 1]));
	php->_size--;
	//向下调整
	AdjustDown(php->_a, 0,php->_size);
}
        3.堆的应用
3.1堆排序
堆排序即利用堆的思想来进行排序,总共分为两个步骤:
1. 建堆
- 升序:建大堆
 - 降序:建小堆
 
2. 利用堆删除思想来进行排序
建堆和堆删除中都用到了向下调整,因此掌握了向下调整,就可以完成堆排序。
这里有一个动图:

代码如下:
            
            
              cpp
              
              
            
          
          void HeapSort(int* a, int n)
{
	// 降序,建小堆
	// 升序,建大堆
	//降序
	for (int i = (n - 1 - 1)/2; i >= 0; i--)
	{
		AdjustDown(a, i, n);
	}
	int end = n - 1;
	while (end)
	{
		Swap(&a[0], &a[end]);
		AdjustDown(a, 0, end);
		end--;
	}
	
}
        关于为什么要用向下调整法而不是向上调整法:
其实两个都可以实现堆的创建,不过在这里向下调整法的效率更高
关于为什么升序:建大堆,降序:建小堆:
因为在堆删除中(以升序举例),大堆在删除时会将最大的堆顶元素移到最后,size--,在将次大的元素移到倒数第二个,size--......符合升序的规律。
3.2 TopK问题
即求数据结合中前K个最大的元素或者最小的元素,一般情况下数据量都比较大。
比如:专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。
对于Top-K问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了(可能 数据都不能一下子全部加载到内存中)。最佳的方式就是用堆来解决,基本思路如下:
1. 用数据集合中前K个元素来建堆
- 前k个最大的元素,则建小堆
 - 前k个最小的元素,则建大堆
 
2. 用剩余的N-K个元素依次与堆顶元素来比较,不满足则替换堆顶元素
将剩余N-K个元素依次与堆顶元素比完之后,堆中剩余的K个元素就是所求的前K个最小或者最大的元素。
            
            
              cpp
              
              
            
          
          void PrintTopK(int k)
{
	int* arr=(int*)malloc(sizeof(int)*k);
	
	//读取k个数
	FILE* fout = fopen("data.txt", "r");
	if (fout == NULL)
	{
		perror("fopen error");
		return;
	}
	int i;
	for (i = 0; i < k; i++)
	{
		fscanf(fout, "%d", &arr[i]);
	}
	
	//建堆
	for (i = (k - 1 - 1) / 2; i >= 0; i--)
	{
		AdjustDown(arr, i, k);
	}
	//比较剩下n-k个数据
	int x;
	while (fscanf(fout, "%d", &x) > 0)
	{
		if (x > arr[0])
		{
			arr[0] = x;
			AdjustDown(arr, 0, k);
		}
	}
	fclose(fout);
	fout = NULL;
	//
	for (i=k-1; i >=0; i--)
	{
		printf("%d ", arr[i]);
	}
}
        OK,关于堆的分享就到这里啦,感谢您的观看,如果对您有帮助的话,三连支持一下孩子吧~