Mysql原理与调优-如何进行sql优化

1.绪论

本文主要讲解我们如何优化一个sql。优化的过程主要分为3个步骤，找到哪些sql需要被优化，这就需要用到慢sql日志。然后发现慢SQL为什么慢，即当前sql是如何执行的，这就需要用到执行计划。最后才是对sql进行优化，对于开发而言，一般是不会去调节Mysql服务的各种参数的，所以一般是从索引的角度对sql进行优化。

2.哪些sql需要优化-慢sql日志

2.1 什么是慢sql日志

当执行时间超过某个阈值或者某些sql未走索引，会被加入到慢sql日志中。

2.2 慢sql的相关参数

|-----------------------------------|----------------------|-----------------|
| 参数 | 说明 | 备注 |
| slow_query_log | 是否开启慢sql日志0-不开启，1开启 | 默认不开启，开启可能会影响性能 |
| slow_query_log_file | 慢日志文件位置 | |
| long_query_time | 超过多少秒算慢sql | 一般设置为1秒 |
| log_queries_not_using_indexes | 未走索引的sql是否会加入到慢日志文件中 | |

3.慢sql现在是如何执行的-执行计划

3.1 数据准备

我们准备两张表分别是用户基础信息表tb_user和用户表tb_user_info。其中tb_user表示用户创建注册过系统便会在改变留下一条记录。而tb_user_info表示是用户对系统的使用信息。

sql 复制代码

CREATE TABLE `tb_user` (
  `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '主键',
  `phone` varchar(11) NOT NULL COMMENT '手机号码',
  `password` varchar(128) DEFAULT '' COMMENT '密码，加密存储',
  `nick_name` varchar(32) DEFAULT '' COMMENT '昵称，默认是用户id',
  `icon` varchar(255) DEFAULT '' COMMENT '人物头像',
  `create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '更新时间',
  PRIMARY KEY (`id`) USING BTREE,
  UNIQUE KEY `uniqe_key_phone` (`phone`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=1010 DEFAULT CHARSET=utf8mb4 ROW_FORMAT=COMPACT

sql 复制代码

CREATE TABLE `tb_user_info` (
  `user_id` bigint(20) unsigned NOT NULL COMMENT '主键，用户id',
  `city` varchar(64) DEFAULT '' COMMENT '城市名称',
  `introduce` varchar(128) DEFAULT NULL COMMENT '个人介绍，不要超过128个字符',
  `fans` int(8) unsigned DEFAULT '0' COMMENT '粉丝数量',
  `followee` int(8) unsigned DEFAULT '0' COMMENT '关注的人的数量',
  `gender` tinyint(1) unsigned DEFAULT '0' COMMENT '性别，0：男，1：女',
  `birthday` date DEFAULT NULL COMMENT '生日',
  `credits` int(8) unsigned DEFAULT '0' COMMENT '积分',
  `level` tinyint(1) unsigned DEFAULT '0' COMMENT '会员级别，0~9级,0代表未开通会员',
  `create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '更新时间',
  PRIMARY KEY (`user_id`) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 ROW_FORMAT=COMPACT

3.2 什么是执行计划

Mysql的优化器在根据各种成本计算过后，会为该条sql生产一个执行计划。这个执行计划包含了表的驱动关系，最终执行的索引，大概得扫描行等。根据，执行计划，我们可以知道执行器最终是如何执行sql的，选择的索引是什么或者索引失效的原因是什么。我们可以通过explain关键字查询执行计划。

sql 复制代码

explain sql语句

3.3 explain查询结果详解

sql 复制代码

EXPLAIN SELECT * FROM tb_user

通过执行explain，我们可以得到如下信息，接下来我们就对每个字段进行解释。

3.3.1 id

sql语句每个select关键字就会生成一个id，针对id主要讲3种情况。

1.连接查询

连接查询id应该是一样的，但是上面的为驱动表，下面的为被驱动表。

sql 复制代码

explain SELECT * FROM tb_user u left join tb_user_info ui on u.id = ui.user_id

2. 子查询

子查询有多个select所以有多个id，id越大，越先执行。

sql 复制代码

EXPLAIN
SELECT * FROM tb_user WHERE id IN (
SELECT id WHERE nick_name='tom' 
)

3. union

union会在临时表中去重，相当于再次执行了selct操作，但是在临时表中去重这一操作的id为null。

sql 复制代码

EXPLAIN
SELECT id FROM tb_user WHERE nick_name='tom' 
UNION
SELECT id FROM tb_user WHERE nick_name='jack'

3.3.2 select_type

select _type其实就是对于每个select的定义的属性，表示该select操作具体是一个什么类型的操作，一般和id是一一对应的。

1.simple

只要不包含子查询，union，union all便是simple。

sql 复制代码

explain select * from tb_user

2.union 和union all

union查询第一个查询类型为priamary，后面的查询类型为union，如果基于他们的结果在临时表中去重类型为union result。

3.子查询

子查询的外层查询为primary，内层查询为subquery

sql 复制代码

EXPLAIN
SELECT * FROM tb_user WHERE id IN (
SELECT id WHERE nick_name='tom' 
)

4. 物化表

Mysql会把一些sql的查询结果，持久化到磁盘上，形成物化表。对于物化表的type为DERIVED。

sql 复制代码

EXPLAIN
SELECT * FROM  (
SELECT id,COUNT(id) AS num FROM tb_user GROUP BY id
) tmp

3.3.3 partitions

分区，mysql可以将数据持久化文件分别存储到不同的磁盘文件上，提升磁盘IO效率。partitions展示的就是分区信息，一般为空。

3.3.4 type

type表示单表是如何访问的。类型有:

system，const，eq_ref，ref，fulltext，ref_or_null，index_merge，unique_subquery，index_subquery，range，index，ALL

我们只需要了解常用的几个类型，并且类型性能排序如下：

system> const>ref> ranget>index>all

1. system

表中只有一条数据时，为system。

2.const

唯一索引并且等值访问。（注意，唯一索引里面可能为null，此时用is null会退化为ref）。

3.eq_ref

连接查询，被驱动表走唯一索引。

4. ref

走二级索引访问。

5. ref_or_null

如果走二级索引并且字段可能为null，可能为ref_or_null。

5.index_merge

index_merge主要包含Intersection、Union合并和Sort-Union合并。

一般出现这种的sql语句：

1) 什么是索引合并

主要是where条件有多个条件，条件之间or或者and连接，条件针对的是不同的列并且每个列都有索引。如果是and连接可能会出现Intersection，如果用or连接，可能出现union或者Sort-Union。

2) Intersection

sql 复制代码

SELECT * FROM tb_user WHERE phone = '13688668922' 
AND nick_name='user_p3655ctliy'

Intersection的执行步骤：

1.如果不采用索引合并，sql该怎么执行呢？上面sql语句可能会先走idx_phone这个索引，获取到phone=13688668922的主键id，然后到主键索引回表，过滤得到nick_name='user_p3655ctliy'的数据。

2.如果采用索引合并，应该怎么执行呢？其实就是取出的走idx_phone这个索引，获取到phone=13688668922的主键id的，然后走idx_nick_name获取到nick_name='user_p3655ctliy'的主键id，取交集，然后根据主键id交集到主键索引中回表，得到数据。

要执行Intersection满足哪些条件:

1.如果走的是非主键索引（可能是联合索引），必须是等值查询，并且索引中的每列都出现在where条件中。这是因为，如果存在某列不在的where条件中，查询出来的主键id可能是一个范围，与另一个索引得到的主键id取交集时，可能性能很低。

2.如果是主键索引，可以为范围查询。原因是，在intersection的时候，可以走二级索引获取到主键id，然后回表时根据主键id范围过滤即可。

3)Union合并

如果多个where条件采用or进行连接，可能会出现or的情况。union查询步骤和intersection的查询步骤是一样的，只是union查询是查出每棵索引树的id，然后取并集，最后回表。

4)索引合并的优化

索引可以通过给where条件后面的列建立联合索引进行优化。

6.unique_subquery

子查询走的是唯一索引进行连接。

7.index_subquery

子查询走非唯一索引进行连接。

8.range

如果有范围查询，或者in子句走索引，为range。

9.index

没有走索引，但是索引上面的列包含了where条件中的列，可以通过索引来进行过滤。

sql 复制代码

ALTER TABLE tb_user ADD INDEX idx_phone_create(`nick_name`,`create_time`);
EXPLAIN SELECT * FROM tb_user WHERE create_time = '2022-02-28 10:50:47'

10.All

全表扫描。

从上面可以看出，如果索引为index或者All，这个时候就已经没有走索引了，我们就需要考虑如果优化。

3.3.5 passible key和key

优化器会根据passible key里面的索引和全表扫描进行成本比较，最后会选择成本最低的key做为执行路径。

我们如果想查看优化器是如何锁定key最后最后的计划的，可以打开optimizer_trace:

sql 复制代码

SHOW VARIABLES LIKE 'optimizer_trace' //查看optimzer_trace是否打开

SET optimizer_trace="enabled=on"; //打开optimizer_trace

SELECT * FROM tb_user WHERE phone = '13688668922' AND nick_name='user_p3655ctliy';
    
SELECT * FROM information_schema.OPTIMIZER_TRACE; //查看优化过程

3.3.6 key_len

key_len表示的是索引字段的字节数，可以用它来判断联合索引被使用了几列：

1.如果是定长字段，key_len就是改字段占用的字节数；

2.如果是变成字段，为该字段所能包含的最大字节数，比如varchar(10)且采用utf8编码，则为key_len为30；同时，会多两个字节来存储变成字段的长度。

3.如果索引可以为null，比部位null多一个字节。

3.3.7ref

如果作等值匹配时，并且走索引，ref表示的是，做等值匹配的是什么内容。比如const就是一个常数。

3.3.8 rows

rows代表该执行计划最后需要扫描的行数。如果，扫描函数过大，但是又走了索引，此时就需要考虑花在回表上的成本。

3.3.9 filter

filter表示走当前索引后，满足最终条件的行数，占通过当前索引过滤出来的行数的百分比。我们举个例子。

sql 复制代码

explain SELECT * FROM tb_user WHERE id > 80 AND nick_name='user_p3655ctliy'

可以看出，前面SELECT * FROM tb_user WHERE id > 80 会走主键索引过滤，得到大概扫描行数929行，然后再在这929行中，进行过滤出nick_name='user_p3655ctliy'的记录，优化器估这里又92.9行满足条件。

3.3.10 extra

extra是explain中很关键的一个字段，里面包含了这个sql具体使用的优化技术。

1.useing index

表示索引覆盖，不需要回表。

2. using index condition

表示使用索引下推。

sql 复制代码

EXPLAIN SELECT * FROM tb_user WHERE nick_name LIKE 'j%' 
AND nick_name LIKE '%a%'

如果未使用索引下推之前，这种多个条件不能形成范围的条件，怎么执行呢？

1.通过二级索引查询出以j开头的记录的主键id；

2.通过主键id到主键索引回表，查询出完整记录返回给server层；

3.server层根据主键索引过滤出nick_name包含a的记录。

如果使用索引下推：

1.通过二级索引查询出以j开头的记录;

2.由于该二级索引包含另一个条件的字段，所以可以直接在索引里面进行判断，得到包含的字段a的记录的主键id；

3.到主键索引，进行回表返回完整记录。

3. using where

表示先走索引，再回表后将记录返回给server层，server对剩余条件进行过滤。

4.using join buffer

表示连接查询的时候，会采用join buffer来进行优化。在连接查询的时候，其实就类似于二重for循环，针对这个二重for循环，Mysql页提出了很多优化手段。我们看看下面这条语句是如何工作的：

sql 复制代码

SELECT * FROM tb_user u LEFT JOIN tb_user_info ui ON u.id = ui.user_id

1) Simple Nested-Loop Join（简单的嵌套循环连接)

其实就是先根据where条件过滤出tb_user中的数据，然后的取出连接值，依次到的tb_user_info中去查询。

2) Index Nested-Loop Join（索引嵌套循环连接）

索引嵌套查询其实就是驱动表取出连接值，然后到被驱动表的索引进行匹配。

3) lock Nested-Loop Join( 块嵌套循环连接 )

块嵌套查询就是依次从驱动表中获取的多条数据，到join buffer中（这样可以减少驱动表的磁盘IO操作），然后一次性到被驱动表中进行匹配。

4) 连接查询优化

1.小表驱动大表，原因主要是驱动表在走where条件后，再过滤的数据全部扫描一遍，而被驱动表可以走索引，所以被驱动表越小越好；join buffer大小是有限的也可以作为另一个原因。

2.尽量给被驱动表的连接字段建立索引。

5.using filesort

在order by，distinct，group by的时候，会默认进行排序。如果不能走索引的话，会将数据加载到sort buffer中，利用排序算法进行排序。这个过程是比较耗时的。因为索引是天然有序的，所以我们尽量利用索引进行排序。

注意：Group by也会带着排序。

如果要禁用掉分组的排序，我们可以在后面加上order by null。

sql 复制代码

explain select nick_name ,count(id) as num from tb_user 
Group by nick_name order by null

6.Using intersect ,using union

表示采用了索引合并

7.Using temporary

表示采用了零时表，如果执行了union，distict，group by等操作的时候，可能建立内部临时表来进行查询。

4.如何优化sql

在Mysql原理与调优-索引原理及使用一文中，我们介绍了如何利用索引来优化单表，本小结在补充一下复杂查询的优化内容。

对于排序分组等，尽量给排序字段或者分组字段建立索引，通过索引来实现分组和排序，减少filesort和temporary。

2.对于连接查询，尽量使用小表驱动大表，并且给连接字段建立索引。原因，前文已经分析过。

3.对于in和exists的选择，同连接查询类似。select A in（select B），会先执行B表查询，再执行A表查询，所以B表应该尽量小，并尽量给A表的过滤字段建立索引。select A exists (select B)，会先执行A表，再到B中判断结果是否存在，所以A表应尽量小，同时给B表的连接字段建立索引。

3.查询时，尽量只查询需要查询的字段，原因是减少回表，尽量索引覆盖。

Mysql原理与调优-如何进行sql优化

1.绪论

2.哪些sql需要优化-慢sql日志

2.1 什么是慢sql日志

2.2 慢sql的相关参数

3.慢sql现在是如何执行的-执行计划

3.1 数据准备

3.2 什么是执行计划

3.3 explain查询结果详解

3.3.1 id

1.连接查询

2. 子查询

3. union

3.3.2 select_type

1.simple

2.union 和union all

3.子查询

4. 物化表

3.3.3 partitions

3.3.4 type

1. system

2.const

3.eq_ref

4. ref

5. ref_or_null

5.index_merge

1) 什么是索引合并

2) Intersection

**3)**Union合并

4)索引合并的优化

6.unique_subquery

7.index_subquery

8.range

9.index

10.All

3.3.5 passible key和key

3.3.6 key_len

3.3.7ref

3.3.8 rows

3.3.9 filter

3.3.10 extra

1.useing index

2. using index condition

3. using where

4.using join buffer

1) Simple Nested-Loop Join（ 简单的嵌套循环连接)

2) Index Nested-Loop Join（ 索引嵌套循环连接 ）

3) lock Nested-Loop Join( 块嵌套循环连接 )

4) 连接查询优化

5.using filesort

6.Using intersect ,using union

7.Using temporary

4.如何优化sql

3)Union合并

1) Simple Nested-Loop Join（简单的嵌套循环连接)

2) Index Nested-Loop Join（索引嵌套循环连接）