【手撕数据结构】Topk问题

目录

题目

TOP-K问题:即求数据结合中前K个最⼤的元素或者最⼩的元素,⼀般情况下数据量都⽐较⼤。

⽐如:专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。

对于Top-K问题,能想到的最简单直接的⽅式就是排序,但是:如果数据量⾮常⼤,排序就不太可取了

(可能数据都不能⼀下⼦全部加载到内存中)。最佳的⽅式就是⽤堆来解决,基本思路如下:

思路

1)⽤数据集合中前K个元素来建堆

前k个最⼤的元素,则建⼩堆

前k个最⼩的元素,则建⼤堆

2)⽤剩余的N-K个元素依次与堆顶元素来⽐较,不满⾜则替换堆顶元素

将剩余N-K个元素依次与堆顶元素⽐完之后,然后向下调整,堆中剩余的K个元素就是所求的前K个最⼩或者最⼤的元素

  • 有人说为什么建小堆,建大堆,直接把元素和堆顶交换就行了吗,这样堆顶一定是最大的。
  • 那么万一交换的是第二个大的数据呢?他们就直接出堆了?所以我们建小堆,通过向下调整,保证前k个数据一定在堆里面。

代码

cpp 复制代码
/*TopK*/
void HeapTopK()
{
	//1.使用一个文件指针指向这个文件
	FILE* fout = fopen("data.txt", "r");
	if (fout == NULL)
	{
		perror("fopen fail");
		return;
	}

	//2.读出前k个数放入数组中
	int k = 5;
	int max[5];
	for (int i = 0; i < k; ++i)
	{
		fscanf(fout, "%d", &max[i]);
	}

	//3.建立k个堆
	for (int i = ((k - 1) - 1) / 2; i >= 0; --i)
	{
		Adjust_Down(max, k, i);
	}

	//4.继续读取剩下的数据
	/*
	* 不断和堆顶数据做比较,比堆顶大就入堆,然后继续向下调整
	*/
	int val = 0;
	while ((fscanf(fout, "%d", &val)) != EOF)		//不停读取剩下的数据
	{
		if (val > max[0])
		{
			max[0] = val;		//替换为堆顶
			Adjust_Down(max, k, 0);		//将其做向下调整
		}
	}

	//5.打印数组中的数据,观看TopK个最大的数
	for (int i = 0; i < k; ++i)
	{
		printf("%d ", max[i]);
	}
	printf("\n");
	fclose(fout);
}
  • 可以看到,我这里使用的是一个随机值的写入,这一块也是我们在C语言中讲到过的,要使用到rand()和srand(),过程很简单,当然这里的【n】和【k】是由我自己来输入,因此下面的数组我们要设置成动态开辟。代码如下
cpp 复制代码
	int n, k;
	puts("请输入n和k的值:");
	scanf("%d%d", &n, &k);
	srand((unsigned int)time(NULL));		//随机种子

	FILE* fin = fopen("data2.txt", "w");		//若有,则打开写入;若无,则创建写入
	
	int randVal = 0;
	for (int i = 0; i < n; ++i)
	{
		randVal = rand() % 1000000;		//随机生成数字
		fprintf(fin, "%d\n", randVal);		//将每次随机生成的数字写入文件中
	}
	fclose(fin);

	///
	// 获取文件中前TopK个值
	//1.使用一个文件指针指向这个文件
	FILE* fout = fopen("data2.txt", "r");
	if (fout == NULL)
	{
		perror("fopen fail");
		return;
	}

	//2.读出前k个数放入数组中
	int* max = (int*)malloc(sizeof(int) * k);

	for (int i = 0; i < k; ++i)
	{
		fscanf(fout, "%d", &max[i]);		//此处无需加\n,因为读取时空格和回车自动作为分隔
	}

	//3.建立k个堆
	for (int i = ((k - 1) - 1) / 2; i >= 0; --i)
	{
		Adjust_Down(max, k, i);
	}

	//4.继续读取剩下的数据
	/*
	* 不断和堆顶数据做比较,比堆顶大就入堆,然后继续向下调整
	*/
	int val = 0;
	while ((fscanf(fout, "%d", &val)) != EOF)		//不停读取剩下的数据
	{
		if (val > max[0])
		{
			max[0] = val;		//替换为堆顶
			Adjust_Down(max, k, 0);		//将其做向下调整
		}
	}

	//5.打印数组中的数据,观看TopK个最大的数
	for (int i = 0; i < k; ++i)
	{
		printf("%d ", max[i]);
	}
	printf("\n");
	fclose(fout);
相关推荐
青山师5 小时前
二叉树与BST深度解析:遍历算法与平衡策略
数据结构·算法·面试·二叉树·算法与数据结构·java面试·数据结构与算法分析
云起SAAS6 小时前
抖音小游戏源码 - 消消乐 | 含激励广告+成就系统 | 开箱即用商业级消除游戏模板
android·游戏·广告联盟·看激励广告联盟流量主·抖音小游戏源码 - 消消乐
大貔貅喝啤酒7 小时前
基于Windows下载安装Android Studio 3.3.2版本教程(2026详细图文版)
android·java·windows·android studio
程序员码歌7 小时前
OpenSpec 到 Superpowers:AI 编码从说清到做对
android·前端·人工智能
2501_915106328 小时前
深入解析无源码iOS加固原理与方案,保护应用安全
android·安全·ios·小程序·uni-app·cocoa·iphone
无限进步_8 小时前
【C++】C++11的类功能增强与STL变化
java·前端·数据结构·c++·后端·算法
sa100279 小时前
京东评论 API 实战:JSON 数据结构、字段含义与解析技巧
前端·数据结构·json
这料鬼有毒9 小时前
二刷hot100-17.电话号码的字母组合
数据结构
执明wa9 小时前
从 T 到协变逆变
java·开发语言·数据结构