用4KB内存寻找重复元素(算法村第十五关青铜挑战)

在海量数据中,普通的数组、链表、Hash、树等等结构无效,因为内存空间不足。而常规的递归、排序,回溯、贪心和动态规划等思想也无效,因为执行超时。这类问题该如何下手呢?这里介绍三种非常典型的思路:

1.使用位存储。

使用位存储最大的好处是占用的空间是简单存整数的1/8。例如一个40亿的整数数组,如果用整数存储需要16GB左右的空间,而如果使用位存储,就可以用0.5GB的空间,这样很多问题就能够解决了。

2.外部排序。如果文件实在太大 ,无法在内存中放下,则需要考虑将大文件分成若干小块,先处理每个块,最后再逐步得到想要的结果。这样需要遍历全部序列至少两次,是典型的用时间换空间的方法。

3.堆,如果在超大数据中找第K大、第K小,K个最大、K个最小,则特别适合使用堆来做。而且将超大数据换成流数据也可以,而且几乎是唯一的方式。口诀是"查小用大堆,查大用小堆"。

题目

给定一个数组,包含从1N的整数,N最大为32000,数组可能还有重复值,且N的取值不定。若只有4KB的内存可用,请问如何打印数组中所有重复元素。

分析

如果不限内存,我们可以创建一个大小为Nint数组,然后逐一读取数据,出现过的数据在数组中的对应位置标记为1,从而不断找到重复元素。

而在4KB的内存限制下,我们应该创建一个大小为Nbit数组。

1KB = 1024 Bytes

1 Byte = 8 bits

4KB = 4 * 1024 * 8 bits = 32768 bits。

比特的单位是 bit,但通常表达多个比特时使用复数形式 bits

例如,当我们说"4KB等于32768 bits"时,就是在用bits来表示比特的总数。

因此4KB足够我们创建32000比特大小的比特数组,其中一个比特位置就代表一个整数。例如...10000100表示数据中3和8出现过,再碰到重复的3、8,就输出一下。

演示代码

代码仅供参考,面试时能讲清楚解题逻辑就行,不用写代码

java 复制代码
public class FindDuplicatesIn32000
{
    //比特集以及相关操作
    class BitSet
    {
		int[] bits;
        
        //创建大小为size的比特数组
		public BitSet(int size)
        {
			this.bibit = new int[size >> 5];	//除以32
		}
        
        //判断某个位置的数是否出现过,出现过返回true,否则返回false
		boolean get(int pos)
        {
            int posBit = (pos >> 5);	//除以32
            int bitNumber = (pos & 0x1F); // ?
            //取模32。该操作会保留 pos 的最低5位,而将高于第五位的所有位设置为0。例如,若 pos 的值为 0b11011011(十进制的 219),那么 pos & 0x1F 的结果将是 0b00011011(十进制的 27)
            return (bits[posBit] & (1 << bitNumber)) != 0;	// ?
        }
        
        //将比特数组的pos位置设置为1
	    void set(int pos)
        {
			int posBit = (pos >> 5);	//除以32
			int bitNumber = (pos & 0x1F);// ?	//取模32
			bits[posBit] = bits[posBit] | (1 << bitNumber);// ?
		}
    }
    
	public void checkDuplicates(int[]array)
    {
		BitSet bits = new BitSet(32000);
        
		for (int i = 0; i < array.length; i++)
        {
			int num = array[i];  //num的范围是[1,N]
			int pos = num - 1;	//num在比特数组中的位置(数组下标从0开始)
            
			if (bits.get(pos))	//出现重复元素
				System.out.println(num);
			else	//元素第一次出现
				bits.set(pos);	//标记一下
        }
    }
}
相关推荐
stein_java14 分钟前
springMVC-10验证及国际化
java·spring
敖云岚16 分钟前
【Redis】分布式锁的介绍与演进之路
数据库·redis·分布式
weixin_4786897616 分钟前
C++ 对 C 的兼容性
java·c语言·c++
hn小菜鸡34 分钟前
LeetCode 1356.根据数字二进制下1的数目排序
数据结构·算法·leetcode
zhuiQiuMX38 分钟前
分享今天做的力扣SQL题
sql·算法·leetcode
LUCIAZZZ1 小时前
HikariCP数据库连接池原理解析
java·jvm·数据库·spring·springboot·线程池·连接池
我在北京coding1 小时前
300道GaussDB(WMS)题目及答案。
数据库·gaussdb
sky_ph1 小时前
JAVA-GC浅析(二)G1(Garbage First)回收器
java·后端
小Tomkk1 小时前
阿里云 RDS mysql 5.7 怎么 添加白名单 并链接数据库
数据库·mysql·阿里云
IDRSolutions_CN2 小时前
PDF 转 HTML5 —— HTML5 填充图形不支持 Even-Odd 奇偶规则?(第二部分)
java·经验分享·pdf·软件工程·团队开发