位图和布隆过滤器

文章目录

位图

对于海量数据我们如何快速判断一个值是否存在呢?如果使用哈希,红黑树等容器就一定会导致内存不足,因此我们引入了位图的概念。位图中采用一个比特位代表一个值来标记该值是否存在,注意并不是把这个数据存起来,而是只标记它是否存在,例如一个整型int,他就可以表示8个数据是否存在

用第n个位标记数字n是否存在

模拟实现

我们以在整型int中标记为例,在32位机器中一个int类型占据8个bit位

如何将数字n标记为存在?

我们首先要计算数字n在数组中对应的下标,然后在计算出该数字在该数据的第几位。

cpp 复制代码
int i = x / 32;//算出在数组中对应的下标
int n = x % 32;//算出在第几位

Set

将数字n对应的位置置为1

cpp 复制代码
void Set(size_t x)
{
	int i = x / 32;//算出在数组中的哪个位置
	int n = x % 32;//算出在第几位
	_bs[i] |= (1 << n);//将数组中第i个中的第n位置为1
}

Reset

将数字n对应的位置置为0

cpp 复制代码
//将第x位重置为0
void Reset(size_t x)
{
	int i = x / 32;
	int n = x % 32;
	_bs[i] &= ~(1 << n);
}

Test

检验数字n是否存在

cpp 复制代码
//判断第x个比特位数据是否为1
bool Test(size_t x)
{
	int i = x / 32;
	int n = x % 32;
	return _bs[i] & (1 << n);
}

位图应用

1、 给定100亿个整数,设计算法找到只出现一次的整数?

我们可以将原来一个位表示一个值,改为两个位表示一个值,如果出现两次及两次以上就用11来表示,如果只出现一次就用01表示,除此之外我们也可以设计一个类,类中成员为两个位图,通过两个位图来判断哪个数据出现一次,当n第一次出现时就把位图1第x位设为1,当第二次出现时,检查位图1中该数是否存在如果存在就把位图2也设为1

2、给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件交集?

把这些数据都放入位图1和位图2,然后遍历判断当两个位图中该位置都为1时,就证明该数据为交集,注意位图也有去重的作用

3、位图应用变形:1个文件有100亿个int,1G内存,设计算法找到出现次数不超过2次的所有整数

同问题1,我们把出现1次的数据在位图1和位图2中表示分别为0和1,出现两次在位图1和位图2中表示分别为1和0,出现两次以上在位图1和位图2中表示分别为1和1。

布隆过滤器

位图最大的缺点就是:位图一般只能处理整形,如果内容编号是字符串,就无法处理了,因此我们引入了布隆过滤器,布隆过滤器就是让一个字符串同时去标记在位图中的多个位置,要判断一个字符串是否已经存在就要去判断它在为图中对应的多个位置是否都为1。但是布隆过滤器也有它自己的缺陷,就是可能会出现误判,即以存在的字符串已经把要插入的字符串对应的位置都标记为了1,但是该字符串并不存在,这就会导致误判,此外如果判定要插入的字符串不存在,该字符串它一定是不存在的。

布隆过滤器通过多个映射函数,将某一个字符串标记在位图中的多个位置。

布隆过滤器应用

1、 给两个文件,分别有100亿个query,我们只有1G内存,如何找到两个文件交集?分别给出精确算法和近似算法

2.、如何扩展BloomFilter使得它支持删除元素的操作

哈希切割

给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址?

与上题条件相同,如何找到top K的IP?如何直接用Linux系统命令实现?

相关推荐
csdn_aspnet6 分钟前
C++ 霍尔分区算法(Hoare‘s Partition Algorithm)
数据结构·c++·算法
誰能久伴不乏12 分钟前
Qt C++ 解析 JSON 完全指南:从核心概念到工业级实战
c++·qt·json
郝学胜-神的一滴12 分钟前
力扣 144:二叉树前序遍历的优雅实现
java·数据结构·c++·python·算法·leetcode·职场和发展
枕星而眠18 分钟前
C++面向对象核心:类间关系与继承深度解析
运维·开发语言·c++·后端
比企谷八幡33 分钟前
数据库 Page 内部是什么样:Page Header、Slot 和 Line Pointer
数据库·c++·postgresql·数据库架构
代码地平线34 分钟前
C++ 入门篇类和对象·上篇:从本质深剖类与对象与C++基本用法
c语言·开发语言·数据结构·c++·笔记·算法
十五年专注C++开发42 分钟前
C++17之类模板实参自动推导CTAD
开发语言·c++·聚合初始化·catd
星马梦缘1 小时前
ACM笔记 学习版本
数据结构·c++·算法
Brilliantwxx1 小时前
【算法从零到千】【1-7】 双指针算法
开发语言·c++·笔记·算法·leetcode·推荐算法
Irissgwe1 小时前
一、Qt 概述
c++·qt·gui·qt creator