SQL Sever Pragmatic Bitmap过滤技术解析

SQL Sever Pragmatic Bitmap过滤技术解析

1、运行时过滤技术

运行时过滤技术是OLAP数据库在join时常用的一项优化技术,通常使用内表也就是构建Hash表时将内表的连接键值构建一个BitMap(布隆过滤器),然后将该BitMap推送到探测端,下沉到外表侧的扫描节点;外表扫描后,将其连接键值利用BitMap进行过滤,提前过滤掉不满足join条件的记录,减少探测次数。

分布式数据库中,常见的做法如下:

1)本地join,无数据shuffle

Hash算子构建的BitMap顺着父节点直接传送给探测端的扫描算子

2)探测端有shuffle,但是shuffle下是Scan算子

探测端shuffle算子下是简单的Scan算子,顺着执行计划树也可以将BitMap传递给Scan算子。

3)探测端有shuffle,但是shuffle下是复杂算子

此时shuffle下是一个复杂算子子树,无法下沉到指定的Scan算子上,所以这里可以将BitMap传递给shuffle算子的发送端,让其在发送数据前先通过BitMap进行过滤,提前过滤掉不满足join条件的数据,减少数据传输量和探测次数。

运行时过滤的该Hash的Bitmap仅能应用到一个Join的过滤中,在级联Join时,无法应用到其他join中进行过滤。针对此场景,SQL Server实现了Pragmatic Bitmap Filters,并在2026年的CIDR会议上以论文形式发表了其创新性做法。CIDR是和VLDB、SIGMOD、ICDE三大国际顶级数据库会议同级别的数据库会议,关注数据库创新性。

2、SQL Sever的做法

SQL Server不关注分布式场景,仅关注级联join场景。

1)对于A join (B join C)的级联join,假设三表之间都有连接键关联,那么A表构建Hash的同时构建好A的Bitmap A,然后顺着执行计划树向探测端下推;

2)只要检测到Bitmap A的列有关联关系就可以下推;

3)A和B和C三者都有关联关系,所以Bitmap A可以下推到Scan B上,提前过滤掉不满足条件的值后再构建Hash表,减少Hash表大小。与此同时构建好Bitmap B;

4)Bitmap A 也可以下推到Scan C

5)Bitmap B也下推到Scan C

6)Bitmap A和B的交集作为过滤Bitmap应用到Scan C上,提前过滤掉不满足join条件的值

这样,在级联join中,可以通过Bitmap尽可能下推,当然如果级联join中,另外两个表没有join关联关系的话,该bitmap就没有用了,也就不可以下推了:

论文中显示,TPCH中可提升1-3倍以上的性能提升,效果还是杠杠的:

3、论文

2026 CIDR会议:I Can't Believe It's Not Yannakakis: Pragmatic Bitmap Filters in Microsoft SQL Server

相关推荐
jiayou647 小时前
KingbaseES 表级与列级加密完全指南
数据库·后端
GBASE1 天前
G术时刻 |GBase 8s数据库事务并发控制之封锁技术介绍(下)
数据库
xiezhr2 天前
逛GitHub发现了一款免费的带AI功能的数据库管理工具
数据库·ai编程·dba
唐青枫2 天前
MySQL JSON 实战详解:从存储、查询、更新到 JSON_TABLE 与索引
sql·mysql
吃糖的小孩2 天前
给 QQ AI 机器人设计“可控记忆”:会话摘要、手动长期记忆与角色卡边界
数据库
笃行3503 天前
金仓数据库数据安全双防线:静态存储加密与传输加密实战
数据库
笃行3503 天前
金仓数据库物理备份实战:sys_rman 全流程演练与误覆盖抢救
数据库
笃行3503 天前
金仓数据库逻辑备份实战:从全库导出到 Schema 替换的完整闭环
数据库
SelectDB4 天前
阶跃星辰基于 SelectDB 构建 PB 级 Agent 可观测平台
大数据·数据库·aigc