位图和布隆过滤器

目录

[一. 位图](#一. 位图)

1.题目:

给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中?

2.解析题目:

3.位图

4.代码以及测试

5.其他题目

二.布隆过滤器

1.介绍

2.实现

3.应用


这两个数据结构都是由哈希思想实现的。

一. 位图

1.题目:

**给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在

这40亿个数中?**

2.解析题目:

40亿整数需要16G空间,但内存只有4G,所以需要节省空间。

由于题目只需要知道这个数在不在,我们只需要分配1bit的空间判断在不在即可。(0表示不在,1表示在)

这种方法就是位图。

3.位图

4.代码以及测试

cpp 复制代码
#pragma once
//N代表你要多少位比特位
//判断某个数在不在这40亿个数里,实际上我们可能要开42亿比特位(long long能表示42亿不同整数)
template<size_t N>
class bit_set
{
public:
	bit_set()
	{
		_bits.resize(N / 32 + 1, 0);
	}

	void set(size_t x)//将比特位置为1
	{
		size_t i = x / 32;
		size_t j = x % 32;
		_bits[i] |= (1 << j);
	}

	void reset(size_t x)//将比特位置为1
	{
		size_t i = x / 32;
		size_t j = x % 32;
		_bits[i] &= ~(1 << j);
	}

	bool test(size_t x)//判断整数x在不在
	{
		size_t i = x / 32;
		size_t j = x % 32;
		return (_bits[i] &= (1 << j));
	}
private:
	vector<int> _bits;
};
cpp 复制代码
int main()
{
	bitset<100> bs;

	bs.set(40);
	bs.set(41);
	bs.set(39);
	bs.set(38);
	bs.set(40);

	cout << bs.test(40) << endl;

	return 0;
}

5.其他题目

题目:给定100亿整数,设计算法找到只出现一次的整数。

二.布隆过滤器

1.介绍

位图的缺点在于只能处理整形。

布隆过滤器通过位图加哈希函数实现其他类型也能映射到相映比特位上。

2.实现

cpp 复制代码
#pragma once
#include"bitset.h"

struct BKDRHash
{
	size_t operator()(const string& key)
	{
		// BKDR
		size_t hash = 0;
		for (auto e : key)
		{
			hash *= 31;
			hash += e;
		}

		return hash;
	}
};

struct APHash
{
	size_t operator()(const string& key)
	{
		size_t hash = 0;
		for (size_t i = 0; i < key.size(); i++)
		{
			char ch = key[i];
			if ((i & 1) == 0)
			{
				hash ^= ((hash << 7) ^ ch ^ (hash >> 3));
			}
			else
			{
				hash ^= (~((hash << 11) ^ ch ^ (hash >> 5)));
			}
		}
		return hash;
	}
};

struct DJBHash
{
	size_t operator()(const string& key)
	{
		size_t hash = 5381;
		for (auto ch : key)
		{
			hash += (hash << 5) + ch;
		}
		return hash;
	}
};

template<size_t N,
	class K = string,
	class HashFunc1 = BKDRHash,
	class HashFunc2 = APHash,
	class HashFunc3 = DJBHash>
class BloomFilter
{
public:
	void Set(const K& key)
	{
		size_t hash1 = HashFunc1()(key) % N;
		size_t hash2 = HashFunc2()(key) % N;
		size_t hash3 = HashFunc3()(key) % N;

		_bs.set(hash1);
		_bs.set(hash2);
		_bs.set(hash3);

		/*cout << hash1 << endl;
		cout << hash2 << endl;
		cout << hash3 << endl << endl;*/
	}

	// 一般不支持删除,删除一个值可能会影响其他值
	// 非要支持删除,也是可以的,用多个位标记一个值,存引用计数
	// 但是这样话,空间消耗的就变大了
	void Reset(const K& key);
    //解决:引用计数,多一些空间用来计数

	bool Test(const K& key)
	{
		// 判断不存在是准确的
		size_t hash1 = HashFunc1()(key) % N;
		if (_bs.test(hash1) == false)
			return false;

		size_t hash2 = HashFunc2()(key) % N;
		if (_bs.test(hash2) == false)
			return false;

		size_t hash3 = HashFunc3()(key) % N;
		if (_bs.test(hash3) == false)
			return false;

		// 存在误判的
		return true;
	}

private:
	bit::bitset<N> _bs;
};

3.应用

a.我们玩游戏注册名称时,有时会看到名称已被使用的情况。

这里可以通过布隆过滤器记录已存在的名称,

如果发现此名称不存在,则真的不存在;

如果发现此名称在(映射位置被占用),可能误判名称存在,我们可以再去服务器比对,看看名称是否真的存在。

b.给两个文件,分别有100亿字符串,我们只有1G内存,如何找到两个文件交集?

相关推荐
ゞ 正在缓冲99%…11 分钟前
leetcode76.最小覆盖子串
java·算法·leetcode·字符串·双指针·滑动窗口
xuanjiong12 分钟前
纯个人整理,蓝桥杯使用的算法模板day2(0-1背包问题),手打个人理解注释,超全面,且均已验证成功(附带详细手写“模拟流程图”,全网首个
算法·蓝桥杯·动态规划
Zhichao_9729 分钟前
【UE5 C++课程系列笔记】33——商业化Json读写
c++·ue5
惊鸿.Jh31 分钟前
【滑动窗口】3254. 长度为 K 的子数组的能量值 I
数据结构·算法·leetcode
明灯L32 分钟前
《函数基础与内存机制深度剖析:从 return 语句到各类经典编程题详解》
经验分享·python·算法·链表·经典例题
碳基学AI38 分钟前
哈尔滨工业大学DeepSeek公开课:探索大模型原理、技术与应用从GPT到DeepSeek|附视频与讲义免费下载方法
大数据·人工智能·python·gpt·算法·语言模型·集成学习
补三补四41 分钟前
机器学习-聚类分析算法
人工智能·深度学习·算法·机器学习
独好紫罗兰1 小时前
洛谷题单3-P5718 【深基4.例2】找最小值-python-流程图重构
开发语言·python·算法
云边有个稻草人1 小时前
【C++】第八节—string类(上)——详解+代码示例
开发语言·c++·迭代器·string类·语法糖auto和范围for·string类的常用接口·operator[]
正脉科工 CAE仿真1 小时前
基于ANSYS 概率设计和APDL编程的结构可靠性设计分析
人工智能·python·算法