MySQL原理简介—10.SQL语句和执行计划

大纲

1.什 么是执行计划

2.执行计划包含哪些内容

3.SQL语句和执行计划的总结

4.SQL语句使用多个二级索引

5.多表关联的SQL语句如何执行

6.全表扫描执行计划的成本计算方法

7.索引的成本计算方法

8.MySQL如何优化执行计划

9.explain的参数说明

1.什么是执行计划

(1)什么是SQL优化

一般开发一个系统,都是先设计表结构,表结构必须满足业务需求。然后写代码,代码写完后,根据代码是如何查询表来设计表的索引,需要考虑设计几个索引,选择哪些字段作索引,是不是联合索引,以及如何排列索引字段的顺序才能让查询语句都用上索引。

普通的SQL优化就是设计好索引,让不太复杂的普通查询都能用上索引。但针对复杂表结构和大数据量的上百行的复杂的SQL优化,必须要理解复杂SQL是怎么执行的,而这就涉及到执行计划。

(2)什么是执行计划

执行SQL语句时,面对磁盘上的大量数据表、聚簇索引和二级索引:如何检索查询、如何筛选过滤、如何使用函数、如何进行排序、如何进行分组、怎样把数据按照SQL查出来,这个过程就是执行计划。

也就是说,每次提交一个SQL语句给MySQL。它的查询优化器,都会针对这个SQL语句的语义去生成一个执行计划,这个执行计划会包含如何查各个表、用到哪些索引、如何做排序和分组,一般基于执行计划来进行SQL优化。

(3)什么是SQL调优

根据SQL语句执行计划,去想办法改写SQL语句,改良表的索引设计,进而优化SQL语句的执行计划,最终提升SQL的执行性能。

2.执行计划包含哪些内容

(1)const

如果可以直接通过聚簇索引或者二级索引+回表聚簇索引,轻松查出数据。那么这种根据主键索引就能直接查出数据的过程,在执行计划里称为const。类似如下的SQL,建立的索引是key(id)和key(name)。

sql 复制代码
mysql> select * from table where id=x;
mysql> select * from table where name=x;

执行计划里的count,代表的意思是性能超高的常量级。所以执行计划里出现const,表明SQL会通过索引查询数据,速度极快。

但需要注意的是:二级索引必须是唯一索引才是属于const方式。即必须建立unique key唯一索引,保证二级索引的每一个值都是唯一的,这时根据二级索引查询才是const。

(2)ref

如果查询时使用的普通的二级索引只有一列,并且不是唯一索引,那么查询的速度也很快,它在执行计划里叫做ref。类似如下SQL,建立的索引是key(name)。

sql 复制代码
mysql> select * from table where name=x;

如果查询时使用的普通的二级索引包含多列,那么必须从索引最左侧开始连续多个列都是等值比较才是属于ref方式。类似如下SQL,建立的索引是key(name,age,sex)。

sql 复制代码
mysql> select * from table where 
name=x and age=x and sex=x;

如果使用name is null这种查询,即使name是主键或者唯一索引,还是只能通过ref方式来查询。

(3)ref_or_null

如果查询时使用了普通的二级索引而且还限定了is null,类似如下SQL,那么在执行计划里就是ref_or_null。

sql 复制代码
mysql> select * from table where 
name=x or name is null;

所以,当我们在分析执行计划时:看到了const,表明肯定是通过主键/唯一索引访问的,速度超高。看到了ref,表明用了普通索引,或主键/唯一索引使用is not null。看到了ref_or_null,表明用了普通索引,而且还限定了is null。

(4)range

如果SQL里面对索引有范围查询,那么就会用这个range方式。类似如下SQL语句,假设age就是一个普通索引,此时必然通过索引来进行范围筛选。一旦利用索引范围筛选,那么这种方式就是range。

sql 复制代码
mysql> select * from table where 
age > x and age < y;

(5)index

假设有一个表,里面有个联合索引key(x1, x2, x3),现在有如下SQL语句。这个SQL是没办法直接从联合索引的索引树根节点开始二分查找的。但这个SQL里要查的几个字段,恰好就是联合索引里的几个字段。

sql 复制代码
mysql> select x1, x2, x3 from table where x2=xxx;

因为聚簇索引的叶子节点放的是完整的数据页,联合索引的叶子节点放的数据页只包含索引字段的值和主键的值。所以这种SQL的查询,会直接遍历这个联合索引的索引树的叶子节点。一个个遍历,找到x2=xxx的那条数据。然后把x1,x2,x3三个字段的值提取出来即可,不需要回源到聚簇索引。

遍历二级索引的过程,要比遍历聚簇索引快得多。毕竟二级索引叶子节点只包含几个字段值,比聚簇索引叶子节点小很多。

这种只需要遍历二级索引就可获取想要查询的数据,而不需要回表到聚簇索引的查询方式,就叫做index。

(6)all

全表扫描,扫描聚簇索引的所有子节点。

(7)总结

const、ref和range,都是基于索引树进行二分查找和多层跳转来查询的。所以const、ref和range的性能一般都很高,然后index的速度就比前面这三种要差一些,因为index是通过遍历二级索引的叶子节点的方式来执行,所以index肯定比二分查找慢但比全表扫描好。

3.SQL语句和执行计划的总结

(1)const、ref和range本质都是基于索引查询

只要索引查出来的数据量不是特别大,一般性能都极为高效。

(2)index稍微次一点,需要遍历某个二级索引

但是因为二级索引比较小,所以遍历性能也还可以。

(3)最差的就是all,意味着全表扫描

即扫描聚簇索引的所有叶子节点,一个表一行一行数据去扫描。如果数据量很大,全表扫描就很危险了。

(4)SQL语句的执行计划案例

案例一:

sql 复制代码
mysql> select * from table where 
x1 = xxx and x2 > xx;

这个SQL语句要查一个表,用了x1和x2两个字段。如果给x1和x2建立联合索引,那么是可以直接通过索引去扫描的。但如果现在建了只有(x1, x3)和(x2, x4)这两个联合索引,此时MySQL只能选择其中一个索引去用,会选哪个?这时MySQL负责生成执行计划的查询优化器,一般会选择在索引里扫描行数比较少的那个。

比如x1 = xx,在索引里只要做等值比较,扫描数据比较少。那么可能就会挑选x1的索引,然后基于其索引树进行查找。在执行计划里,对应于ref的方式,找到几条数据后再接着进行回表。回到聚簇索引里去查出每条数据的完整信息,然后把这些信息加载到内存,根据x2 > xx条件进行筛选。

案例二:

sql 复制代码
mysql> select * from table where 
x1=xx and c1=xx and c2>xx and c3 is not null;

我们经常会写出类似上述这样的SQL,就是SQL的所有筛选条件里,只有一个x1有索引,其他字段都没索引。这种情况还是很常见的,因为不可能针对所有SQL的where字段都加索引,我们一般只能抽取部分经常在where里用到的字段来设计两三个联合索引。

这种SQL语句,where后的条件有好几个,但只有一个字段可用到索引。此时查询优化器生成的执行计划,只会针对x1字段执行ref方式的查询,也就是通过x1字段的索引树快速找到符合x1=xx的一大堆数据。接着会根据这一大堆数据回表到聚簇索引里,查出每条数据的完整字段。然后将这些包含完整字段的数据加载到内存里去。接着就可以在内存针对这些数据的c1,c2,c3字段按条件进行筛选和过滤。最后便可以拿到符合条件的数据。

因此为了保证后续的查询性能比较高,所以针对x1索引的设计,需要尽可能让x1=xx这个条件在索引树里查找出来的数据量比较少。

4.SQL语句使用多个二级索引

一般一个SQL语句只会用到一个二级索引,但是一些特殊的情况下,可能一个SQL语句会用到多个二级索引。比如有SQL语句:

sql 复制代码
mysql> select * from table where x1=xx and x2=xx;

其中x1和x2分别有一个索引,查询优化器会生成如下这样的执行计划:先对x1的索引树查找出一批数据,再对x2的索引树查找出另一批数据,然后两批数据按主键值做交集,这个交集就是符合两个条件的数据了,最后再回表到聚簇索引去获取完整的数据。

什么情况下会对两个字段的两个索引一起查,然后取交集再回表呢?什么情况下会查多个索引树呢?

如果同时查两个索引树再取交集后的数据量很小,那么根据这少量数据回表到聚簇索引查询,就可以提升性能。所以是否会查多个索引树的标准是,能否提升性能。因此执行计划里出现了intersection交集、union并集等,意思就是查询时使用了多个索引,最后对结果集做交集或并集。

5.多表关联的SQL语句如何执行

(1)多表关联的基本原理

如下SQL语句在from后接了两个表,表示对两个表的数据关联起来查询。如果多表关联查询时没有限定多表连接条件,那么会直接进行笛卡尔积。比如"select * from t1,t2;"就会使用笛卡尔积,但一般会加限定关联条件。​​​​​​​

sql 复制代码
mysql> select * from t1,t2 where 
t1.x1=xx and t1.x2=t2.x2 and t2.x3=xx;

上面SQL语句的关联条件是"t1.x2=t2.x2",所以其执行过程是:首先根据t1.x1=xx这个筛选条件去t1表里查询,可能使用了const、ref、index、all,具体要看索引如何建的。然后将筛选出来的结果,根据结果中x2的值,去t2表查询,也就是去t2表里查找t2.x2等于这些x2的值以及t2.x3=xx都匹配的数据。

这就是多表关联的基本原理,先查的表叫驱动表,根据先查出的数据再去查的另外一张表叫被驱动表。

(2)几种连接

一.内连接inner join

两个表里的数据必须是完全能关联上,才能将数据返回来。

二.左外连接left join

左侧表的某条数据在右侧表关联不到任何数据,也把左侧表该数据返回。

三.右外连接right join

右侧表的某条数据在左侧表关联不到任何数据,也把右侧表该数据返回。

四.语法限制

如果是内连接,那么连接条件可放在where语句里。如果是外连接,那么连接条件需放在on字句里。

(3)嵌套循环关联

假设有两个表要一起执行关联,此时会先在一个驱动表里根据它的where筛选条件找出一批数据。接着对这批数据进行循环,用每条数据都到另外一个被驱动表里,根据ON连接条件和where里的被驱动表筛选条件去查找数据。

假设从驱动表找出1000条数据,那么就要到被驱动表查询1000次。所以很多时候多表关联是很慢的。

因此针对多表查询的语句,尽量给两个表都加上索引。索引要确保从驱动表里查询是通过驱动表的索引去查找,接着对被驱动表查询也是通过被驱动表的索引去查找。

6.全表扫描执行计划的成本计算方法

(1)MySQL如何根据成本估算选择执行计划

(2)执行一个SQL语句的IO成本

(3)执行一个SQL语句的CPU成本

(4)评估SQL语句执行成本的案例

(1)MySQL如何根据成本估算选择执行计划

MySQL在执行单表查询时:对应的一些执行计划是诸如const、ref、range、index、all之类的。

MySQL在执行多表关联时:本质就是先查驱动表,接着根据连接条件再去被驱动表循环查询。

MySQL是如何对一个查询语句的多个执行计划评估成本的?MySQL如何根据成本评估选择一个成本最低的执行计划的?

执行一个SQL语句的成本一般分成两部分:IO成本和CPU成本。

(2)执行一个SQL语句的IO成本

首先这些数据需要从磁盘里读出来,从磁盘读数据到内存就是IO成本。而且MySQL里都是一页一页读的,读一页的IO成本约定为1.0。

(3)执行一个SQL语句的CPU成本

然后内存拿到数据后,需要对数据进行操作,比如验证是否符合搜索条件或者排序分组等,这些属于CPU成本。一般约定读取和检测一条数据是否符合条件的成本是0.2。

(4)评估SQL语句执行成本的案例

比如执行如下SQL语句:

sql 复制代码
mysql> select * from t where x1=xx and x2=xx;

**步骤一:假设该表有两个索引分别是针对x1和x2建立的,**那么MySQL会先看这个SQL可以用到哪几个索引。由于发现x1和x2都有可能,于是possible_keys。

**步骤二:接着会针对这个SQL计算一下全表扫描的成本,**全表扫描需要进行磁盘IO把聚簇索引里的叶子节点上的数据页读到内存,所以磁盘文件上有多少的数据页就会耗费多少的IO成本。然后还需要对内存里的每一条数据都判断是否符合搜索条件,读取到内存里有多少条数据就需要耗费多少CPU成本。

(5)如何计算执行成本

可以使用命令show table status like "表名"拿到表的统计信息。MySQL在对表进行增删改的时候,MySQL会维护这个表的统计信息。比如rows记录表的记录数,data_length记录表的聚簇索引的字节数大小。

使用data_length除以1024就是KB大小,再除以16就是数据页的数量。通过估算数据页的数量和rows记录数,就可以计算全表扫描的成本了。

IO成本就是:数据页数量 * 1.0 + 微调值;CPU成本就是:行记录数 * 0.2 + 微调值;两者相加就是一个总成本。比如一个表有100个数据页,记录数有2万条。那么执行总成本值大致就是 100 + 4000 = 4100。

7.索引的成本计算方法

如果是根据主键查,那么直接通过聚簇索引查询就可以了。

如果是根据非主键字段查,该字段也建了索引。那么一般会首先从二级索引查一批数据,然后再根据这批数据的主键去聚簇索引回表查。最后对比全表扫描的估算成本和索引的估算成本,选成本低的执行计划。所以有时候出现不用索引而用全表扫描,就是因为索引的估算成本更高。

8.MySQL如何优化执行计划

(1)优化SQL语句的清晰语义

(2)子查询的优化

(1)优化SQL语句的清晰语义

从而方便后续在索引和数据页里进行查找,比如类似"i=5 and j>i"这样的会常量替换成"i=5 and j>5",比如类似"x=y and y=k and k=3"会常量替换成"x=3 and y=3 and k=3",比如类似"b=b and a=a"这种没意义的就直接删掉条件了。

(2)子查询的优化

如下SQL执行时会分两步:先执行子查询,再执行select * from t1 where...​​​​​​​

sql 复制代码
mysql> select * from t1 where 
x1=(select x1 from t2 where id = xxx);

像上述这种单表查询可以直接用上索引还好,但有时用不上索引就会基于内存或者临时文件执行。

如下SQL会先通过子查询先查一批结果,然后判断t1表里哪些数据的x1值在这个结果集里。

sql 复制代码
mysql> select * from t1 where 
x1 in (select x2 from t2 where x3 = xxx);

如果先执行子查询,然后对t1表再进行全表扫描,而全表扫描会判断每条数据是否在该子查询的结果集里,那么效率就会非常低。

因此对于上述子查询,执行计划会被优化为:先执行子查询,然后再把子查询查出来的数据写入临时表。临时表也叫物化表,即把中间结果集进行物化。

这个物化表可能会基于memory存储引擎来通过内存存放。如果结果集太大,则可能采用普通B+树聚簇索引的方式放在磁盘里。这个物化表都会建立索引,所以这种中间结果写入物化表都是有索引的。

如果t1表的数据量很大比如10万,但物化表结果集的数据量只有500条。那么此时会由全表扫描t1表改成全表扫描物化表,这也是其中一种子查询的优化。

9.explain的参数说明

(1)id

select查询的序列号,包含一组数字,表示查询中执行select子句或者操作表的顺序。

(2)select_type

主要用来分辨查询的类型,是普通查询还是联合查询还是子查询。

(3)table

对应行正在访问哪一个表,表名或者别名,可能是临时表或者union合并结果集。

(4)type

type显示的是访问类型,访问类型表示以何种方式去访问数据。比如全表扫描,直接遍历一张表去寻找需要的数据,效率非常低下。

访问的类型有很多,效率从最好到最坏依次是:system > const > eq_ref > ref > ref_or_null > index_merge > unique_subquery > index_subquery > range > index > all

一般情况下,得保证查询至少达到range级别,最好能达到ref。

sql 复制代码
--all:全表扫描,一般情况下出现这样的sql语句而且数据量比较大的话那么就需要进行优化。
explain select * from emp;

--index:全索引扫描这个比all的效率要好;
--主要有两种情况,一种是当前的查询时覆盖索引,即我们需要的数据在索引中就可以索取,或者是使用了索引进行排序,这样就避免数据的重排序
explain  select empno from emp;

--range:表示利用索引查询的时候限制了范围,在指定范围内进行查询,这样避免了index的全索引扫描;
--适用的操作符:=, <>, >, >=, <, <=, IS NULL, BETWEEN, LIKE, or IN() 
explain select * from emp where empno between 7000 and 7500;

--index_subquery:利用索引来关联子查询,不再扫描全表
explain select * from emp where emp.job in (select job from t_job);

--unique_subquery:该连接类型类似与index_subquery,使用的是唯一索引 
explain select * from emp e where e.deptno in (select distinct deptno from dept); 

--index_merge:在查询过程中需要多个索引组合使用,没有模拟出来

--ref_or_null:对于某个字段即需要关联条件,也需要null值的情况下,查询优化器会选择这种访问方式
explain select * from emp e where  e.mgr is null or e.mgr=7369;

--ref:使用了非唯一性索引进行数据的查找 
create index idx_3 on emp(deptno); 
explain select * from emp e,dept d where e.deptno = d.deptno;

--eq_ref :使用唯一性索引进行数据查找
explain select * from emp,emp2 where emp.empno = emp2.empno;

--const:这个表至多有一个匹配行
explain select * from emp where empno = 7369; 

--system:表只有一行记录(等于系统表),这是const类型的特例,平时不会出现

(5)possible_keys

显示可能应用在这张表中的索引,一个或多个。查询涉及到的字段上若存在索引,则该索引将被列出。但这些列出的索引,不一定会被查询实际使用。

(6)key

实际使用的索引,如果为null,则没有使用索引。查询中若使用了覆盖索引,则该索引和查询的select字段重叠。

(7)key_len

表示索引中使用的字节数,可以通过key_len计算查询中使用的索引长度,在不损失精度的情况下长度越短越好。

(8)ref

显示索引的哪一列被使用了,如果可能的话,是一个常数。

(9)rows

根据表的统计信息及索引使用情况,大致估算找出所需记录要读取的行数。此参数很重要,直接反应SQL找了多少数据,当然其数值越少越好。

(10)extra

包含额外的信息:

sql 复制代码
--using filesort:说明mysql无法利用索引进行排序,只能利用排序算法进行排序,会消耗额外的位置
explain select * from emp order by sal;

--using temporary:建立临时表来保存中间结果,查询完成之后把临时表删除
explain select ename,count(*) from emp where deptno = 10 group by ename;

--using index:这个表示当前的查询时覆盖索引的,直接从索引中读取数据,而不用访问数据表。
--如果同时出现using where 表名索引被用来执行索引键值的查找,如果没有,表面索引被用来读取数据,而不是真的查找
explain select deptno,count(*) from emp group by deptno limit 10;

--using where:使用where进行条件过滤
explain select * from t_user where id = 1;

--using join buffer:使用连接缓存,情况没有模拟出来

--impossible where:where语句的结果总是false
explain select * from emp where empno = 7469;
相关推荐
程序员岳焱9 分钟前
Java 与 MySQL 性能优化:MySQL 慢 SQL 诊断与分析方法详解
后端·sql·mysql
Channing Lewis1 小时前
sql server如何创建表导入excel的数据
数据库·oracle·excel
秃头摸鱼侠1 小时前
MySQL安装与配置
数据库·mysql·adb
UGOTNOSHOT1 小时前
每日八股文6.3
数据库·sql
行云流水行云流水1 小时前
数据库、数据仓库、数据中台、数据湖相关概念
数据库·数据仓库
John Song1 小时前
Redis 集群批量删除key报错 CROSSSLOT Keys in request don‘t hash to the same slot
数据库·redis·哈希算法
IvanCodes2 小时前
七、Sqoop Job:简化与自动化数据迁移任务及免密执行
大数据·数据库·hadoop·sqoop
tonexuan2 小时前
MySQL 8.0 绿色版安装和配置过程
数据库·mysql
JohnYan2 小时前
工作笔记- 记一次MySQL数据移植表空间错误排除
数据库·后端·mysql
我最厉害。,。2 小时前
Windows权限提升篇&数据库篇&MYSQL&MSSQL&ORACLE&自动化项目
数据库·mysql·sqlserver