SQL Sever Pragmatic Bitmap过滤技术解析

SQL Sever Pragmatic Bitmap过滤技术解析

1、运行时过滤技术

运行时过滤技术是OLAP数据库在join时常用的一项优化技术,通常使用内表也就是构建Hash表时将内表的连接键值构建一个BitMap(布隆过滤器),然后将该BitMap推送到探测端,下沉到外表侧的扫描节点;外表扫描后,将其连接键值利用BitMap进行过滤,提前过滤掉不满足join条件的记录,减少探测次数。

分布式数据库中,常见的做法如下:

1)本地join,无数据shuffle

Hash算子构建的BitMap顺着父节点直接传送给探测端的扫描算子

2)探测端有shuffle,但是shuffle下是Scan算子

探测端shuffle算子下是简单的Scan算子,顺着执行计划树也可以将BitMap传递给Scan算子。

3)探测端有shuffle,但是shuffle下是复杂算子

此时shuffle下是一个复杂算子子树,无法下沉到指定的Scan算子上,所以这里可以将BitMap传递给shuffle算子的发送端,让其在发送数据前先通过BitMap进行过滤,提前过滤掉不满足join条件的数据,减少数据传输量和探测次数。

运行时过滤的该Hash的Bitmap仅能应用到一个Join的过滤中,在级联Join时,无法应用到其他join中进行过滤。针对此场景,SQL Server实现了Pragmatic Bitmap Filters,并在2026年的CIDR会议上以论文形式发表了其创新性做法。CIDR是和VLDB、SIGMOD、ICDE三大国际顶级数据库会议同级别的数据库会议,关注数据库创新性。

2、SQL Sever的做法

SQL Server不关注分布式场景,仅关注级联join场景。

1)对于A join (B join C)的级联join,假设三表之间都有连接键关联,那么A表构建Hash的同时构建好A的Bitmap A,然后顺着执行计划树向探测端下推;

2)只要检测到Bitmap A的列有关联关系就可以下推;

3)A和B和C三者都有关联关系,所以Bitmap A可以下推到Scan B上,提前过滤掉不满足条件的值后再构建Hash表,减少Hash表大小。与此同时构建好Bitmap B;

4)Bitmap A 也可以下推到Scan C

5)Bitmap B也下推到Scan C

6)Bitmap A和B的交集作为过滤Bitmap应用到Scan C上,提前过滤掉不满足join条件的值

这样,在级联join中,可以通过Bitmap尽可能下推,当然如果级联join中,另外两个表没有join关联关系的话,该bitmap就没有用了,也就不可以下推了:

论文中显示,TPCH中可提升1-3倍以上的性能提升,效果还是杠杠的:

3、论文

2026 CIDR会议:I Can't Believe It's Not Yannakakis: Pragmatic Bitmap Filters in Microsoft SQL Server

相关推荐
我滴老baby10 小时前
工业时序数据实战:基于 DolphinDB 流计算引擎的实现与调优
数据库
睡不醒男孩03082311 小时前
TiDB数据库调研
数据库·tidb
珠***格11 小时前
实操落地|防逆流装置的安装规范、调试标准与故障处置
网络·数据库·人工智能·分布式·能源·边缘计算
Omics Pro12 小时前
3种蛋白结构输入方式!已申报欧洲发明专利
数据库·人工智能·python·机器学习·plotly
itfallrain12 小时前
Spring 构造器循环依赖排查:@RequiredArgsConstructor + @Lazy 到底有没有生效
数据库·python·spring
Database_Cool_13 小时前
AnalyticDB MySQL vs StarRocks/ByteHouse:云数仓选型指南——全托管 vs 自建方案
数据库·数据仓库·mysql·阿里云
Omics Pro13 小时前
「自兹以往」动物肠道微生物组
数据库·人工智能·机器学习·语言模型·自然语言处理
zzz_236813 小时前
【Redis】分布式锁完整演进
数据库·redis·分布式
mN9B2uk1714 小时前
数据库的约束简介
java·数据库·sql
计算机安禾14 小时前
【数据库系统原理】第4篇:关系数据结构的形式化定义:域、笛卡尔积与关系模式
数据结构·数据库·算法