【从零到Offer】MySQL最左匹配

前言

相信大家在日常开发时,也经常能听到"最左匹配"这个词,那么什么是最左匹配呢?本篇文章就带你一起探索"最左匹配"的神奇秘密。

什么是最左匹配

最左匹配,通常指的是最左前缀匹配原则,即MySQL在检索数据时从联合索引的最左边开始匹配。

那么如何检验MySQL确实是按照最左匹配在查询数据呢?实践是检验真理的唯一标准。

MySQL 复制代码
create table index_table
(
    id           int auto_increment,
    a       int         default 0 not null  ,
    b       int         default 0 not null ,
    c       int         default 0 not null ,
    d       int         default 0 not null,
    constraint index_table_id_uindex
        unique (id)
);

create index index_table_a_b_c_index
    on index_table (a, b, c);

这里新建一张数据表,并建立(a,b,c)三列的联合索引。建好表后,往表中添入数据。

如此一来初始数据就准备好了。但是下一个问题来了,如何检验当前查询是否走了对应的索引呢?这里简单介绍下MySQL是如何执行SQL的:

MySQL执行一句SQL主要经过以下几个步骤:

1、客户端同连接池建立通信协议链接。

2、MySQL将传入的SQL放入到查询缓存中执行。

3、若非查询SQL或缓存未命中,则请求解析器进行语法解析并生成语法树。

4、对生成的解析树,MySQL的优化器会再次按照最优路径等方法进行优化。

5、利用优化后的解析树生成执行计划。

6、存储引擎执行相应的执行计划,将查询结果或修改结果返回给用户,至此SQL执行流程结束。

可以看到在第5步,如果能拿到这句SQL的执行计划,那么SQL的执行效率、使用的索引情况就明了了。那么如何获取到SQL的执行计划呢?很简单,在MySQL中,有一个十分重要的关键字"Explain"。这里简单通过一个例子来说明:

csharp 复制代码
    explain select * from index_table where a = 1 and b = 20 and c = 0;
    explain select * from index_table where b = 20 and c = 0;

这里,采用explain关键字对SQL进行分析。可以看到执行完后,结果如下。

上述列所表达的意思简单解释如下:

通过"Explain"关键字,可以看到MySQL在执行第一句SQL时是走了索引的,但是第二句SQL是没有走索引的。那么到此,可以知道,MySQL确实是按最左匹配的方式在查询数据的。

最左匹配原理

那么到这里,又有了新的疑问。为什么MySQL选择的是最左匹配的方式呢?这就还得从MySQL自身的索引结构说起。

众所周知,索引的结构种类其实是有很多的,如:哈希索引、二叉树索引、B+树索引等等。MySQL基于检索效率等方面考虑,选择B+树作为自身的索引结构。

这里以前面的数据为例,绘制出了MySQL建立的B+树索引:

简单来讲,在建立联合索引的时候,MySQL会优先按照索引的左边的第一个字段进行排序。对应到图中,也就是优先按照了列a进行排序。

如果列a相同的情况下,MySQL则按联合索引的第二列b进行排序。聚焦到图中就是(3,3,1)和(3,5,0)这两个数据。它们的列a是相同的,但列b是从小到大排序的。

了解了索引的建立方式,想必你也就明白了为什么是最左匹配了吧?索引本身的顺序是从左到右建立的,因此在搜索的时候,自然也是需要从左到右去匹配生效的。

以刚才SQL为例, "where a = 1 and b = 20 and c = 0;" 的部分,MySQL会优先选择用a=1搜索索引的位置(因为a已经是排好序的),倘如a=1的数据有多条。那么就会聚焦到b进行搜索,因为列b肯定也是按照顺序排列好的。因此只需要再按照b进行搜索即可。

注意事项

那么聊到这里,可能有些读者就有疑惑了。"那我们以后搜索使用where条件语句的时候,都需要按照索引的方式搜索么?"

答案显然是否定的。依旧以上文提到的(a,b,c)联合索引为例子,具体来说,可以分成如下几种特殊情况:

搜索SQL 使用索引情况
情况一 where a=? and c=? and b=? 正常使用索引
情况二 where a=? and c=? 仅仅对a列使用了索引,c采用索引下推。
情况三 where b=? and c=? 无法使用索引

情况一

按照情况一来看,可以看到where的条件并不是完全按照联合索引的顺序建立的,但是联合索引依旧生效了。可能很多人会有疑惑,不是说按照最左匹配才生效吗?回顾到前文中的SQL的执行流程,不难发现在生成SQL的执行计划之前,MySQL的解析器和优化器是会对传入的SQL语句进行解析、优化的。

在这个过程中,MySQL会自动调整where条件中的条件顺序,以便查询能够以最小的成本进行。所以并非是最左匹配的原则失效了,只是MySQL已经自动帮你处理好了这个转变过程,使得你在编程、查询的时候不需要再考虑索引顺序的问题。

情况二

对情况二,a列可以正常采用索引,因为前面已经提到,联合索引是从左到右建立有效序列的,因此a列肯定是可以有序搜索的。但后续并没有b列,因此联合索引就没法再使用了。那么这个时候,MySQL如何进行c列的搜索呢?

这里就不得不提及一个MySQL针对这种情况的优化,这种优化被称为索引下推。这里简单用例子:"select * from index_table where a>0 and c=1*"来解释一下。

正常来说,在where条件语句中,a>0是可以采用索引的,此时根据这个条件能够获取出一大批数据。根据索引中的这批数据,MySQL会按找id进行回表查询,查询完成后再根据where的其他条件进行筛选。

但是,这种方法会带来很多的不必要回表,以图中为例,在联合索引中,其实保存了c列的数据,只需要根据c列再进行一次判断,就可以筛选出需要回表的数据只有一条,从而就可以大大减少回表的次数,达到优化查询的目的。

因此,MySQL为了减少回表查询的次数,就针对这种联合索引匹配不上的情况做了优化,就是在已经用联合索引筛选出数据的情况下,再次使用联合索引中的叶子结点数据,来判断where语句中的其余条件是否可以符合。若不符合,则不再对该数据做回表,从而加快数据查询的效率。

情况三

对于情况三,那么由于它没有以a列作为查询的条件,相当于最左侧的列都无法匹配上。那么此时无论MySQL如何处理,都是没法调整顺序使其符合联合索引的,因此只能按照全表搜索的方式,而这也是最慢的搜索情况。

总结

综合这以上三种情况,可以看到,MySQL在查询的时候,会优先用联合索引中最左侧的列进行匹配,并且会想方设法让用户的SQL能够符合联合索引。

这也提示我们,在建立联合索引的时候,联合索引的列查询频率应该是从左到右递减的,由此一来,联合索引才能发挥最大的功效,也尽可能避免出现索引失效的情况。

参考资料

腾讯面试官问我:MySQL索引原理是什么?

MySQL索引,最左前缀匹配的内部原理是什么?

这篇 MySQL 索引和 B+Tree 讲得太通俗易懂

相关推荐
月光水岸New2 小时前
Ubuntu 中建的mysql数据库使用Navicat for MySQL连接不上
数据库·mysql·ubuntu
我爱松子鱼2 小时前
mysql之规则优化器RBO
数据库·mysql
闲猫2 小时前
go orm GORM
开发语言·后端·golang
丁卯4042 小时前
Go语言中使用viper绑定结构体和yaml文件信息时,标签的使用
服务器·后端·golang
人间打气筒(Ada)4 小时前
MySQL主从架构
服务器·数据库·mysql
和道一文字yyds4 小时前
MySQL 中的索引数量是否越多越好?为什么?如何使用 MySQL 的 EXPLAIN 语句进行查询分析?MySQL 中如何进行 SQL 调优?
数据库·sql·mysql
bing_1586 小时前
简单工厂模式 (Simple Factory Pattern) 在Spring Boot 中的应用
spring boot·后端·简单工厂模式
天上掉下来个程小白6 小时前
案例-14.文件上传-简介
数据库·spring boot·后端·mybatis·状态模式
哆木7 小时前
排查生产sql查询缓慢
数据库·sql·mysql
Asthenia04127 小时前
基于Jackson注解的JSON工具封装与Redis集成实战
后端