位图和布隆过滤器

文章目录

位图

对于海量数据我们如何快速判断一个值是否存在呢?如果使用哈希,红黑树等容器就一定会导致内存不足,因此我们引入了位图的概念。位图中采用一个比特位代表一个值来标记该值是否存在,注意并不是把这个数据存起来,而是只标记它是否存在,例如一个整型int,他就可以表示8个数据是否存在

用第n个位标记数字n是否存在

模拟实现

我们以在整型int中标记为例,在32位机器中一个int类型占据8个bit位

如何将数字n标记为存在?

我们首先要计算数字n在数组中对应的下标,然后在计算出该数字在该数据的第几位。

cpp 复制代码
int i = x / 32;//算出在数组中对应的下标
int n = x % 32;//算出在第几位

Set

将数字n对应的位置置为1

cpp 复制代码
void Set(size_t x)
{
	int i = x / 32;//算出在数组中的哪个位置
	int n = x % 32;//算出在第几位
	_bs[i] |= (1 << n);//将数组中第i个中的第n位置为1
}

Reset

将数字n对应的位置置为0

cpp 复制代码
//将第x位重置为0
void Reset(size_t x)
{
	int i = x / 32;
	int n = x % 32;
	_bs[i] &= ~(1 << n);
}

Test

检验数字n是否存在

cpp 复制代码
//判断第x个比特位数据是否为1
bool Test(size_t x)
{
	int i = x / 32;
	int n = x % 32;
	return _bs[i] & (1 << n);
}

位图应用

1、 给定100亿个整数,设计算法找到只出现一次的整数?

我们可以将原来一个位表示一个值,改为两个位表示一个值,如果出现两次及两次以上就用11来表示,如果只出现一次就用01表示,除此之外我们也可以设计一个类,类中成员为两个位图,通过两个位图来判断哪个数据出现一次,当n第一次出现时就把位图1第x位设为1,当第二次出现时,检查位图1中该数是否存在如果存在就把位图2也设为1

2、给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件交集?

把这些数据都放入位图1和位图2,然后遍历判断当两个位图中该位置都为1时,就证明该数据为交集,注意位图也有去重的作用

3、位图应用变形:1个文件有100亿个int,1G内存,设计算法找到出现次数不超过2次的所有整数

同问题1,我们把出现1次的数据在位图1和位图2中表示分别为0和1,出现两次在位图1和位图2中表示分别为1和0,出现两次以上在位图1和位图2中表示分别为1和1。

布隆过滤器

位图最大的缺点就是:位图一般只能处理整形,如果内容编号是字符串,就无法处理了,因此我们引入了布隆过滤器,布隆过滤器就是让一个字符串同时去标记在位图中的多个位置,要判断一个字符串是否已经存在就要去判断它在为图中对应的多个位置是否都为1。但是布隆过滤器也有它自己的缺陷,就是可能会出现误判,即以存在的字符串已经把要插入的字符串对应的位置都标记为了1,但是该字符串并不存在,这就会导致误判,此外如果判定要插入的字符串不存在,该字符串它一定是不存在的。

布隆过滤器通过多个映射函数,将某一个字符串标记在位图中的多个位置。

布隆过滤器应用

1、 给两个文件,分别有100亿个query,我们只有1G内存,如何找到两个文件交集?分别给出精确算法和近似算法

2.、如何扩展BloomFilter使得它支持删除元素的操作

哈希切割

给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址?

与上题条件相同,如何找到top K的IP?如何直接用Linux系统命令实现?

相关推荐
m0_7482402519 分钟前
C++仿Muduo库Server服务器模块实现 基于Reactor模式的高性
服务器·c++·php
画个逗号给明天"1 小时前
C++十大排序算法
数据结构·c++·排序算法
仰泳的熊猫1 小时前
LeetCode:268. 丢失的数字
数据结构·c++·算法·leetcode
小龙报1 小时前
《算法通关指南数据结构和算法篇(3)--- 栈和stack》
开发语言·数据结构·c++·算法·创业创新·学习方法·visual studio
m0_748233641 小时前
C++小协程栈和临时变量及作用域的栈溢出问题分析
开发语言·c++
Maple_land2 小时前
内建命令揭秘与环境变量全景:Linux变量体系的完整闭环
linux·运维·服务器·c++·centos
oioihoii2 小时前
高性能推理引擎的基石:C++与硬件加速的完美融合
开发语言·c++
十五年专注C++开发3 小时前
QRingBuffer:Qt内部高效环形缓冲区
c++·qt·环形缓冲区·qringbuffer
苏纪云3 小时前
算法<C++>——双指针操作链表
c++·算法·链表·双指针
louisdlee.3 小时前
扫描线1:朴素扫描线
数据结构·c++·算法·扫描线