算法：TopK问题

题目

有10亿个数字，需要找出其中的前k大个数字。

为了方便讲解，这里令k为5。

思路分析（以找前k大个数字为例）

很容易想到，进行排序，然后取前k个数字即可。

但是，难点在于，10亿个数字，假设每个数字都是int，就需要40亿个字节，接近40G的内存，这是很恐怖的数据，肯定不可能直接进行排序。

那我们怎么办呢？

我们可以建一个k个元素的堆

找前k大的数字建小堆，找前k小的数字建大堆

接着，将剩下N - k个数字与堆顶元素比较

如果比堆顶元素大，就进入堆，向下调整，维护好堆

遍历完所有的数字即可

最终堆里面的元素就是前k大个数字

思路虽然不好想，但是理解起来还是比较简单的，

难点在于，为什么找前k个大数字要建小堆呢？

OK，我们先假设，建大堆。

当中途找到了最大的数字，这个数字就会一直再堆顶，如果后面还有其他前k大的数字，但小于最大的数字，就会被挡住，无法进入堆。

所以找前k大个数字要建小堆，找前k小个数字要建大堆，是相同的道理。

时间复杂度分析

如果采用排序来寻找前K大个数字，时间复杂度是O(N * logN)

但是采用建堆的思路，时间复杂度是O(K + (N - K) *logK)

因为N是远大于K的，所以，时间复杂度为O(N)，优于排序算法。

而且空间复杂度也非常小。

整体思路上完全优于排序算法。

代码

10亿个数据太难造了，这里就简单使用10万个数据模拟一下吧

用随机数模拟出10万个数据，接着进行打桩，在这10万个数据中造出一些特殊数据，这里为1000001,1000002,1000003,1000004,1000005

C++ 复制代码

void CreateNDate()
{
	// 造数据
	int n = 100000;
	srand(time(0));
	const char* file = "data.txt";
	FILE* fin = fopen(file, "w");
	if (fin == NULL)
	{
		perror("fopen error");
		return;
	}

	for (size_t i = 0; i < n; ++i)
	{
		int x = rand() % 1000000;
		if (i == 333)
			x = 1000001;

		if (i == 444)
			x = 1000002;

		if (i == 555)
			x = 1000003;

		if (i == 666)
			x = 1000004;

		if (i == 777)
			x = 1000005;

		fprintf(fin, "%d\n", x);
	}

	fclose(fin);
}


void TopK(int k)
{
	const char* file = "data.txt";
	FILE* fout = fopen(file, "r");
	if (fout == NULL)
	{
		perror("fopen error");
		return;
	}

	int* heap = new int[k];
	for (int i = 0; i < k; i++)
	{
		fscanf(fout, "%d", &heap[i]);
	}

	for (int i = (k - 1 - 1) / 2; i >= 0; --i)
	{
		AdjustDown(heap, k, i);
	}

	int x = 0;
	while (fscanf(fout, "%d", &x) != EOF)
	{
		if (x > heap[0])
		{
			heap[0] = x;
			AdjustDown(heap, k, 0);
		}
	}
	
	for (int i = 0; i < k; ++i)
	{
		cout << heap[i] << " ";
	}
	cout << endl;
}


int main()
{
  CreateNData();
  TopK(5);
   
   return 0;
}