位图和布隆过滤器

目录

[一. 位图](#一. 位图)

1.题目:

给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中?

2.解析题目:

3.位图

4.代码以及测试

5.其他题目

二.布隆过滤器

1.介绍

2.实现

3.应用


这两个数据结构都是由哈希思想实现的。

一. 位图

1.题目:

**给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在

这40亿个数中?**

2.解析题目:

40亿整数需要16G空间,但内存只有4G,所以需要节省空间。

由于题目只需要知道这个数在不在,我们只需要分配1bit的空间判断在不在即可。(0表示不在,1表示在)

这种方法就是位图。

3.位图

4.代码以及测试

cpp 复制代码
#pragma once
//N代表你要多少位比特位
//判断某个数在不在这40亿个数里,实际上我们可能要开42亿比特位(long long能表示42亿不同整数)
template<size_t N>
class bit_set
{
public:
	bit_set()
	{
		_bits.resize(N / 32 + 1, 0);
	}

	void set(size_t x)//将比特位置为1
	{
		size_t i = x / 32;
		size_t j = x % 32;
		_bits[i] |= (1 << j);
	}

	void reset(size_t x)//将比特位置为1
	{
		size_t i = x / 32;
		size_t j = x % 32;
		_bits[i] &= ~(1 << j);
	}

	bool test(size_t x)//判断整数x在不在
	{
		size_t i = x / 32;
		size_t j = x % 32;
		return (_bits[i] &= (1 << j));
	}
private:
	vector<int> _bits;
};
cpp 复制代码
int main()
{
	bitset<100> bs;

	bs.set(40);
	bs.set(41);
	bs.set(39);
	bs.set(38);
	bs.set(40);

	cout << bs.test(40) << endl;

	return 0;
}

5.其他题目

题目:给定100亿整数,设计算法找到只出现一次的整数。

二.布隆过滤器

1.介绍

位图的缺点在于只能处理整形。

布隆过滤器通过位图加哈希函数实现其他类型也能映射到相映比特位上。

2.实现

cpp 复制代码
#pragma once
#include"bitset.h"

struct BKDRHash
{
	size_t operator()(const string& key)
	{
		// BKDR
		size_t hash = 0;
		for (auto e : key)
		{
			hash *= 31;
			hash += e;
		}

		return hash;
	}
};

struct APHash
{
	size_t operator()(const string& key)
	{
		size_t hash = 0;
		for (size_t i = 0; i < key.size(); i++)
		{
			char ch = key[i];
			if ((i & 1) == 0)
			{
				hash ^= ((hash << 7) ^ ch ^ (hash >> 3));
			}
			else
			{
				hash ^= (~((hash << 11) ^ ch ^ (hash >> 5)));
			}
		}
		return hash;
	}
};

struct DJBHash
{
	size_t operator()(const string& key)
	{
		size_t hash = 5381;
		for (auto ch : key)
		{
			hash += (hash << 5) + ch;
		}
		return hash;
	}
};

template<size_t N,
	class K = string,
	class HashFunc1 = BKDRHash,
	class HashFunc2 = APHash,
	class HashFunc3 = DJBHash>
class BloomFilter
{
public:
	void Set(const K& key)
	{
		size_t hash1 = HashFunc1()(key) % N;
		size_t hash2 = HashFunc2()(key) % N;
		size_t hash3 = HashFunc3()(key) % N;

		_bs.set(hash1);
		_bs.set(hash2);
		_bs.set(hash3);

		/*cout << hash1 << endl;
		cout << hash2 << endl;
		cout << hash3 << endl << endl;*/
	}

	// 一般不支持删除,删除一个值可能会影响其他值
	// 非要支持删除,也是可以的,用多个位标记一个值,存引用计数
	// 但是这样话,空间消耗的就变大了
	void Reset(const K& key);
    //解决:引用计数,多一些空间用来计数

	bool Test(const K& key)
	{
		// 判断不存在是准确的
		size_t hash1 = HashFunc1()(key) % N;
		if (_bs.test(hash1) == false)
			return false;

		size_t hash2 = HashFunc2()(key) % N;
		if (_bs.test(hash2) == false)
			return false;

		size_t hash3 = HashFunc3()(key) % N;
		if (_bs.test(hash3) == false)
			return false;

		// 存在误判的
		return true;
	}

private:
	bit::bitset<N> _bs;
};

3.应用

a.我们玩游戏注册名称时,有时会看到名称已被使用的情况。

这里可以通过布隆过滤器记录已存在的名称,

如果发现此名称不存在,则真的不存在;

如果发现此名称在(映射位置被占用),可能误判名称存在,我们可以再去服务器比对,看看名称是否真的存在。

b.给两个文件,分别有100亿字符串,我们只有1G内存,如何找到两个文件交集?

相关推荐
饕餮ing3 分钟前
C++的UDP连接解析域名地址错误
开发语言·c++·udp
JohnFF12 分钟前
48. 旋转图像
数据结构·算法·leetcode
bbc12122612 分钟前
AT_abc306_b [ABC306B] Base 2
算法
生锈的键盘20 分钟前
推荐算法实践:movielens数据集
算法
董董灿是个攻城狮21 分钟前
Transformer 通关秘籍9:词向量的数值实际上是特征
算法
代码AC不AC30 分钟前
【数据结构】队列
c语言·数据结构·学习·队列·深度讲解
林泽毅30 分钟前
SwanLab x EasyR1:多模态LLM强化学习后训练组合拳,让模型进化更高效
算法·llm·强化学习
小林熬夜学编程32 分钟前
【高并发内存池】第八弹---脱离new的定长内存池与多线程malloc测试
c语言·开发语言·数据结构·c++·算法·哈希算法
刚入门的大一新生38 分钟前
归并排序延伸-非递归版本
算法·排序算法
独好紫罗兰43 分钟前
洛谷题单3-P1980 [NOIP 2013 普及组] 计数问题-python-流程图重构
开发语言·python·算法