当过滤条件不符合最左前缀时,如何有效利用索引? | OceanBase SQL 优化实践

本文涉及两个知识点:通过索引快速定位数据的规则,以及 OceanBase 中 index skip scan 能力。

问题背景

在《OceanBase DBA 入门教程》里,我们曾阐述过:"索引的一大功能是迅速定位数据,它能将索引列上的过滤条件转化为索引扫描的开始点和结束点。执行扫描时,仅需从开始点扫描至结束点,两点间的数据即满足索引列上的过滤条件。这段扫描范围被称为query range。这里有一个关键点需要注意:索引可以从头开始匹配多个等值谓词 ,直至与第一个范围谓词匹配为止。"

这个规则的详情可以参见《OceanBase DBA 入门教程》中 "常见的 SQL 调优方式" 小节中的 "索引的几个作用" 部分。这里简单举一个例子,创建一张表,建一个索引 idx,在 c1、c2 列上。

复制代码
CREATE TABLE t1 (
    c1 INT,
    c2 INT,
    c3 INT);

CREATE INDEX idx ON t1 (c1, c2);

场景一:过滤条件中的等值谓词是 c1,符合索引前缀,可以利用索引 idx。

复制代码
EXPLAIN BASIC SELECT * FROM t1 WHERE c1 = 1;
+----------------------------------------------------------------------------------------+
| Query Plan                                                                             |
+----------------------------------------------------------------------------------------+
| =============================                                                          |
| |ID|OPERATOR        |NAME   |                                                          |
| -----------------------------                                                          |
| |0 |TABLE RANGE SCAN|t1(idx)|                                                          |
| =============================                                                          |
| Outputs & filters:                                                                     |
| -------------------------------------                                                  |
|   0 - output([t1.c1], [t1.c2], [t1.c3]), filter(nil), rowset=16                        |
|       access([t1.__pk_increment], [t1.c1], [t1.c2], [t1.c3]), partitions(p0)           |
|       is_index_back=true, is_global_index=false,                                       |
|       range_key([t1.c1], [t1.c2], [t1.__pk_increment]), range(1,MIN,MIN ; 1,MAX,MAX),  |
|       range_cond([t1.c1 = 1])                                                          |
+----------------------------------------------------------------------------------------+

场景二:等值谓词分别是 c1 和 c2,符合索引前缀,可以利用索引 idx。

复制代码
EXPLAIN BASIC SELECT * FROM t1 WHERE c1 = 1 AND c2 = 2;
+------------------------------------------------------------------------------------+
| Query Plan                                                                         |
+------------------------------------------------------------------------------------+
| =============================                                                      |
| |ID|OPERATOR        |NAME   |                                                      |
| -----------------------------                                                      |
| |0 |TABLE RANGE SCAN|t1(idx)|                                                      |
| =============================                                                      |
| Outputs & filters:                                                                 |
| -------------------------------------                                              |
|   0 - output([t1.c1], [t1.c2], [t1.c3]), filter(nil), rowset=16                    |
|       access([t1.__pk_increment], [t1.c1], [t1.c2], [t1.c3]), partitions(p0)       |
|       is_index_back=true, is_global_index=false,                                   |
|       range_key([t1.c1], [t1.c2], [t1.__pk_increment]), range(1,2,MIN ; 1,2,MAX),  |
|       range_cond([t1.c1 = 1], [t1.c2 = 2])                                         |
+------------------------------------------------------------------------------------+

场景三:等值谓词是 c2,不符合索引前缀,不可以利用索引 idx。

复制代码
EXPLAIN BASIC SELECT * FROM t1 WHERE c2 = 2;
+------------------------------------------------------------------------------------+
| Query Plan                                                                         |
+------------------------------------------------------------------------------------+
| =========================                                                          |
| |ID|OPERATOR       |NAME|                                                          |
| -------------------------                                                          |
| |0 |TABLE FULL SCAN|t1  |                                                          |
| =========================                                                          |
| Outputs & filters:                                                                 |
| -------------------------------------                                              |
|   0 - output([t1.c1], [t1.c2], [t1.c3]), filter([t1.c2 = 2]), rowset=16            |
|       access([t1.c2], [t1.c1], [t1.c3]), partitions(p0)                            |
|       is_index_back=false, is_global_index=false, filter_before_indexback[false],  |
|       range_key([t1.__pk_increment]), range(MIN ; MAX)always true                  |
+------------------------------------------------------------------------------------+

优化思路

问题背景和《入门教程》中的说法在一般情况下并没有错。但是,OceanBase 从 4.1 版本开始,支持了一个叫 Index Skip Scan 的能力,咱们先通过 Hint 使用这个能力,展示下当过滤条件不是最左前缀时,也能走上索引的效果

复制代码
EXPLAIN BASIC SELECT /*+ index_ss(t1 idx) */* FROM t1 WHERE c2 = 2;
+-----------------------------------------------------------------------------------------------------+
| Query Plan                                                                                          |
+-----------------------------------------------------------------------------------------------------+
| ============================                                                                        |
| |ID|OPERATOR       |NAME   |                                                                        |
| ----------------------------                                                                        |
| |0 |TABLE SKIP SCAN|t1(idx)|                                                                        |
| ============================                                                                        |
| Outputs & filters:                                                                                  |
| -------------------------------------                                                               |
|   0 - output([t1.c1], [t1.c2], [t1.c3]), filter([t1.c2 = 2]), rowset=16                             |
|       access([t1.__pk_increment], [t1.c2], [t1.c1], [t1.c3]), partitions(p0)                        |
|       is_index_back=true, is_global_index=false, filter_before_indexback[true],                     |
|       range_key([t1.c1], [t1.c2], [t1.__pk_increment]), range(MIN,MIN,MIN ; MAX,MAX,MAX)always true |
|       prefix_columns_cnt = 1 , skip_scan_range(2,MIN ; 2,MAX)                                       |
+-----------------------------------------------------------------------------------------------------+

计划里的这个算子比较奇怪,名字和之前索引范围扫描时的 TABLE RANGE SCAN 不同,变成了 TABLE SKIP SCANTABLE SKIP SCAN 虽然属于范围扫描,但是会跳跃执行,可以在满足一定条件的时候,利用已有的索引来加速扫描。

如果读者希望通过这个 index_ss 这个 Hint 来使用这个跳跃范围扫描的优化,需要关注下索引列的 NDV(Number of Distinct Values)。 从索引的实现原理上来讲,当表中存在一个联合索引 idx (c1, c2),并且过滤条件是 where c2 = ?时,c1 列的 NDV 越小,c2 列的 NDV 越大,就越适合通过这个 Hint 来使用 Index Skip Scan

What's more ?

当然,什么时候适合用 Index Skip Scan 是由表中的数据分布以及查询条件决定的,OceanBase 的优化器会根据代价决定是否使用 Index Skip Scan,自动选择最适合的查询方式。简单来说,优化器会在满足如下限制条件时会尝试进行 Index Skip Scan 的优化:

  • 表上有收集过统计信息。
  • 查询条件中包含联合索引的后缀列,并且不是其他索引最左前缀。
  • 优化器比较 TABLE SKIP SCAN 和全表扫描的代价,发现 TABLE SKIP SCAN 代价更低。
相关推荐
apocelipes1 天前
常用编程语言和库的正则表达式性能对比
c语言·c++·python·性能优化·golang·开发工具和环境
你听得到114 天前
用户说 App 卡,但说不清在哪?我把 Flutter 监控 SDK 升级成了链路观测工作台
前端·flutter·性能优化
唐青枫5 天前
MySQL JSON 实战详解:从存储、查询、更新到 JSON_TABLE 与索引
sql·mysql
掉头发的王富贵7 天前
【StarRocks】极限十分钟入门StarRocks
数据库·sql·mysql
亲亲小宝宝鸭8 天前
前端性能监控:web-vitals
前端·性能优化·监控
TrisighT11 天前
Electron 跑在鸿蒙 PC 上,单窗口和多窗口内存差 800MB?我抓了 5 组数据
性能优化·electron·harmonyos
zzzzzz31012 天前
9K Star 炸裂开源!这个 C 语言写的代码知识图谱,把 Linux 内核索引压缩到了 3 分钟
linux·服务器·sql
云技纵横14 天前
唯一索引 INSERT 死锁实战:5 秒复现交叉插入的 S 锁循环等待
sql·mysql
jump_jump15 天前
流式 HTML:从 htmx 片段装配到浏览器原生增量渲染
javascript·性能优化·前端工程化
小小工匠16 天前
Redis - 事务机制:能实现 ACID 属性吗
数据结构·redis·性能优化·并发·持久化