SQL Sever Pragmatic Bitmap过滤技术解析

SQL Sever Pragmatic Bitmap过滤技术解析

1、运行时过滤技术

运行时过滤技术是OLAP数据库在join时常用的一项优化技术,通常使用内表也就是构建Hash表时将内表的连接键值构建一个BitMap(布隆过滤器),然后将该BitMap推送到探测端,下沉到外表侧的扫描节点;外表扫描后,将其连接键值利用BitMap进行过滤,提前过滤掉不满足join条件的记录,减少探测次数。

分布式数据库中,常见的做法如下:

1)本地join,无数据shuffle

Hash算子构建的BitMap顺着父节点直接传送给探测端的扫描算子

2)探测端有shuffle,但是shuffle下是Scan算子

探测端shuffle算子下是简单的Scan算子,顺着执行计划树也可以将BitMap传递给Scan算子。

3)探测端有shuffle,但是shuffle下是复杂算子

此时shuffle下是一个复杂算子子树,无法下沉到指定的Scan算子上,所以这里可以将BitMap传递给shuffle算子的发送端,让其在发送数据前先通过BitMap进行过滤,提前过滤掉不满足join条件的数据,减少数据传输量和探测次数。

运行时过滤的该Hash的Bitmap仅能应用到一个Join的过滤中,在级联Join时,无法应用到其他join中进行过滤。针对此场景,SQL Server实现了Pragmatic Bitmap Filters,并在2026年的CIDR会议上以论文形式发表了其创新性做法。CIDR是和VLDB、SIGMOD、ICDE三大国际顶级数据库会议同级别的数据库会议,关注数据库创新性。

2、SQL Sever的做法

SQL Server不关注分布式场景,仅关注级联join场景。

1)对于A join (B join C)的级联join,假设三表之间都有连接键关联,那么A表构建Hash的同时构建好A的Bitmap A,然后顺着执行计划树向探测端下推;

2)只要检测到Bitmap A的列有关联关系就可以下推;

3)A和B和C三者都有关联关系,所以Bitmap A可以下推到Scan B上,提前过滤掉不满足条件的值后再构建Hash表,减少Hash表大小。与此同时构建好Bitmap B;

4)Bitmap A 也可以下推到Scan C

5)Bitmap B也下推到Scan C

6)Bitmap A和B的交集作为过滤Bitmap应用到Scan C上,提前过滤掉不满足join条件的值

这样,在级联join中,可以通过Bitmap尽可能下推,当然如果级联join中,另外两个表没有join关联关系的话,该bitmap就没有用了,也就不可以下推了:

论文中显示,TPCH中可提升1-3倍以上的性能提升,效果还是杠杠的:

3、论文

2026 CIDR会议:I Can't Believe It's Not Yannakakis: Pragmatic Bitmap Filters in Microsoft SQL Server

相关推荐
woxihuan1234561 小时前
SQL数据分析如何剔除极端异常值_配合窗口函数检测偏离度
jvm·数据库·python
2303_821287381 小时前
Go 中通过指针实现变量名的“间接引用”与原地修改
jvm·数据库·python
ClouGence2 小时前
TiCDC 够用吗?聊聊 TiDB 同步的几个关键问题
数据库·分布式·后端
iuvtsrt2 小时前
SQL如何高效提取大表前几行:分页查询与OFFSET优化
jvm·数据库·python
彳亍1012 小时前
如何用 Dask 替代 Pandas 实现高效 Excel 数据处理
jvm·数据库·python
音符犹如代码2 小时前
Docker 一键部署带有 TimescaleDB 插件的 PostgreSQL
java·运维·数据库·后端·docker·postgresql·容器
程序leo源2 小时前
Qt信号与槽深度详解
c语言·开发语言·数据库·c++·qt·c#
2301_783848652 小时前
c++怎么把多个变量一次性写入二进制文件_结构体对齐与write【实战】
jvm·数据库·python
wang3zc2 小时前
如何在 WooCommerce 后台按订单总金额精准筛选订单
jvm·数据库·python