位图和布隆过滤器

目录

[一. 位图](#一. 位图)

1.题目:

给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中?

2.解析题目:

3.位图

4.代码以及测试

5.其他题目

二.布隆过滤器

1.介绍

2.实现

3.应用


这两个数据结构都是由哈希思想实现的。

一. 位图

1.题目:

**给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在

这40亿个数中?**

2.解析题目:

40亿整数需要16G空间,但内存只有4G,所以需要节省空间。

由于题目只需要知道这个数在不在,我们只需要分配1bit的空间判断在不在即可。(0表示不在,1表示在)

这种方法就是位图。

3.位图

4.代码以及测试

cpp 复制代码
#pragma once
//N代表你要多少位比特位
//判断某个数在不在这40亿个数里,实际上我们可能要开42亿比特位(long long能表示42亿不同整数)
template<size_t N>
class bit_set
{
public:
	bit_set()
	{
		_bits.resize(N / 32 + 1, 0);
	}

	void set(size_t x)//将比特位置为1
	{
		size_t i = x / 32;
		size_t j = x % 32;
		_bits[i] |= (1 << j);
	}

	void reset(size_t x)//将比特位置为1
	{
		size_t i = x / 32;
		size_t j = x % 32;
		_bits[i] &= ~(1 << j);
	}

	bool test(size_t x)//判断整数x在不在
	{
		size_t i = x / 32;
		size_t j = x % 32;
		return (_bits[i] &= (1 << j));
	}
private:
	vector<int> _bits;
};
cpp 复制代码
int main()
{
	bitset<100> bs;

	bs.set(40);
	bs.set(41);
	bs.set(39);
	bs.set(38);
	bs.set(40);

	cout << bs.test(40) << endl;

	return 0;
}

5.其他题目

题目:给定100亿整数,设计算法找到只出现一次的整数。

二.布隆过滤器

1.介绍

位图的缺点在于只能处理整形。

布隆过滤器通过位图加哈希函数实现其他类型也能映射到相映比特位上。

2.实现

cpp 复制代码
#pragma once
#include"bitset.h"

struct BKDRHash
{
	size_t operator()(const string& key)
	{
		// BKDR
		size_t hash = 0;
		for (auto e : key)
		{
			hash *= 31;
			hash += e;
		}

		return hash;
	}
};

struct APHash
{
	size_t operator()(const string& key)
	{
		size_t hash = 0;
		for (size_t i = 0; i < key.size(); i++)
		{
			char ch = key[i];
			if ((i & 1) == 0)
			{
				hash ^= ((hash << 7) ^ ch ^ (hash >> 3));
			}
			else
			{
				hash ^= (~((hash << 11) ^ ch ^ (hash >> 5)));
			}
		}
		return hash;
	}
};

struct DJBHash
{
	size_t operator()(const string& key)
	{
		size_t hash = 5381;
		for (auto ch : key)
		{
			hash += (hash << 5) + ch;
		}
		return hash;
	}
};

template<size_t N,
	class K = string,
	class HashFunc1 = BKDRHash,
	class HashFunc2 = APHash,
	class HashFunc3 = DJBHash>
class BloomFilter
{
public:
	void Set(const K& key)
	{
		size_t hash1 = HashFunc1()(key) % N;
		size_t hash2 = HashFunc2()(key) % N;
		size_t hash3 = HashFunc3()(key) % N;

		_bs.set(hash1);
		_bs.set(hash2);
		_bs.set(hash3);

		/*cout << hash1 << endl;
		cout << hash2 << endl;
		cout << hash3 << endl << endl;*/
	}

	// 一般不支持删除,删除一个值可能会影响其他值
	// 非要支持删除,也是可以的,用多个位标记一个值,存引用计数
	// 但是这样话,空间消耗的就变大了
	void Reset(const K& key);
    //解决:引用计数,多一些空间用来计数

	bool Test(const K& key)
	{
		// 判断不存在是准确的
		size_t hash1 = HashFunc1()(key) % N;
		if (_bs.test(hash1) == false)
			return false;

		size_t hash2 = HashFunc2()(key) % N;
		if (_bs.test(hash2) == false)
			return false;

		size_t hash3 = HashFunc3()(key) % N;
		if (_bs.test(hash3) == false)
			return false;

		// 存在误判的
		return true;
	}

private:
	bit::bitset<N> _bs;
};

3.应用

a.我们玩游戏注册名称时,有时会看到名称已被使用的情况。

这里可以通过布隆过滤器记录已存在的名称,

如果发现此名称不存在,则真的不存在;

如果发现此名称在(映射位置被占用),可能误判名称存在,我们可以再去服务器比对,看看名称是否真的存在。

b.给两个文件,分别有100亿字符串,我们只有1G内存,如何找到两个文件交集?

相关推荐
南东山人几秒前
一文说清:C和C++混合编程
c语言·c++
LNTON羚通1 小时前
摄像机视频分析软件下载LiteAIServer视频智能分析平台玩手机打电话检测算法技术的实现
算法·目标检测·音视频·监控·视频监控
哭泣的眼泪4082 小时前
解析粗糙度仪在工业制造及材料科学和建筑工程领域的重要性
python·算法·django·virtualenv·pygame
Ysjt | 深3 小时前
C++多线程编程入门教程(优质版)
java·开发语言·jvm·c++
ephemerals__3 小时前
【c++丨STL】list模拟实现(附源码)
开发语言·c++·list
Microsoft Word3 小时前
c++基础语法
开发语言·c++·算法
天才在此3 小时前
汽车加油行驶问题-动态规划算法(已在洛谷AC)
算法·动态规划
一只小小汤圆3 小时前
opencascade源码学习之BRepOffsetAPI包 -BRepOffsetAPI_DraftAngle
c++·学习·opencascade
legend_jz4 小时前
【Linux】线程控制
linux·服务器·开发语言·c++·笔记·学习·学习方法