文章目录
- [一、 前言](#一、 前言)
- 二、explain相关
- 三、索引优化相关
一、 前言
近几年看了很多和mysql相关的书,文章或视频,但仍然有一些点,看过之后又忘记了,这里做一些笔记来总结一下。
二、explain相关
- explain解析后,id列越大执行优先级越高,id相同则从上往下执行,id为NULL最后执行。
- select_type列代表的是对应行是简单还是复杂查询。
1)simple:简单查询。查询不包含子查询和union
2)primary:复杂查询中最外层的 select
3)subquery:包含在 select 中的子查询(不在 from 子句中)
4)derived:包含在 from 子句中的子查询。MySQL会将结果存放在一个临时表中,也称为派生表(derived的英文含义) - 当type是
index
的时候,代表扫描全索引就能拿到结果,一般是扫描某个二级索引 ,这种扫描不会从索引树根节点开始快速查找,而是直接对二级索引的叶子节点遍历和扫描,速度还是比较慢的,这种查询一般为使用覆盖索引,二级索引一般比较小,所以这种通常比ALL快一些。 - 可以通过key_len来判断使用了是吗索引,char(n)和varchar(n)中
n
代表的是字符数,而不是字节数。
varchar(n):如果存汉字则长度是 3n + 2 字节,加的2字节用来存储字符串长度,因为varchar是变长字符串。
三、索引优化相关
联合索引
- 联合索引第一个字段就用范围查找不会走索引,mysql内部可能觉得第一个字段就用范围,结果集应该很大,回表效率不高,还不如就全表扫描。当然可以使用forceidex强制走索引,但是效率不一定高。可以用覆盖索引优化。
- in和or在表数据量比较大的情况会走索引,在表记录不多的情况下会选择全表扫描。
索引下推
- **好处:**索引下推主要是为了减少回表次数,并且只能用于
二级索引
,innodb主键索引保存的是全行数据,索引下推不会减少回表次数。 - **原理:**比如对于辅助的联合索引(name,age,position),正常情况按照最左前缀原则
SELECT * FROM employees WHERE name like 'LiLei%' AND age = 22 AND position ='manager'
这种情况只会走name字段索引,因为根据name字段过滤完,得到的索引行里的age和position是无序的,无法很好的利用索引。
在MySQL5.6之前的版本,这个查询只能在联合索引里匹配到名字是 'LiLei' 开头的索引,然后拿这些索引对应的主键逐个回表,到主键索引上找出相应的记录,再比对age和position这两个字段的值是否符合。
MySQL 5.6引入了索引下推优化,可以在索引遍历过程中,对索引中包含的所有字段先做判断,过滤掉不符合条件的记录之后再回表,可以有效的减少回表次数。使用了索引下推优化后,上面那个查询在联合索引里匹配到名字是 'LiLei' 开头的索引之后,同时还会在索引里过滤age和position这两个字段,拿着过滤完剩下的索引对应的主键id再回表查整行数据。
排序和分组相关优化
- 在order by和group by中,也能使用到索引,但不会显示在key_len字段中,会在extra中有显示,比如当某个字段用在排序,那么额外字段里没有using filesort。
- 对于排序来说,多个相等条件(in),也是范围查询,也会出现using filesort。
分页优化
EXPLAIN select * from employees ORDER BY name limit 90000,5;
- 对于深度分页,比如limit 10000,10,mysql会查询出前面10010条数据,并舍弃掉10000条数据,只要后面的10条数据这样效率很低。
- 如果是连续的,可以用 id>10000 limit 5实现。但弊端很大,要保证数据连续,还要保证如果排序了,排序的时候是按照主键排序的。(扫描整个索引并查找到没索引的行,可能要遍历多个索引树)的成本比扫描全表的成本更高,所以优化器放弃使用索引。)
- 如何优化?
其实关键是让返回的数据尽可能少 ,所以可以让排序和分页操作先查出主键,然后根据主键查到对应的记录,SQL改写如下
select * from employees e inner join (select id from employees order by name limit 90000,5) ed on e.id = ed.id;
这样避免了filesort文件排序,还走了索引。
表关联优化
- 执行计划中首先执行的是驱动表,后执行的是被驱动表,驱动表一般数量级少。 使用 inner join 时,排在前面的表并不一定就是驱动表。
- 当使用left join时,左表是驱动表,右表是被驱动表,当使用right join时,右表时驱动表,左表是被驱动表,当使用join时,mysql会选择数据量比较小的表作为驱动表,大表作为被驱动表。
嵌套循环连接 Nested-Loop Join(NLJ) 算法
前提:t2表100行数据,t1表1万行数据。
一次一行循环地从第一张表(称为驱动表)中读取行,在这行数据中取到关联字段,根据关联字段在另一张表(被驱动表)里取出满足条件的行,然后取出两张表的结果合集。
如果被驱动表的关联字段没索引,使用NLJ算法性能会比较低,mysql会选择Block Nested-Loop Join算法。
如果上面使用 Nested-Loop Join,那么扫描行数为 100 * 10000 = 100万次,这个是磁盘扫描。
很显然,用BNL磁盘扫描次数少很多,相比于磁盘扫描,BNL的内存计算会快得多。
从表 t2 中读取一行数据(如果t2表有查询过滤条件的,用先用条件过滤完,再从过滤结果里取出一行数据);
从第 1 步的数据中,取出关联字段 a,到表 t1 中查找;
取出表 t1 中满足条件的行,跟 t2 中获取到的结果合并,作为结果返回给客户端;
重复上面 3 步。
被驱动表的关联字段没索引为什么要选择使用 BNL 算法而不使用 Nested-Loop Join 呢?
用BNL磁盘扫描次数少很多,相比于磁盘扫描,BNL的内存计算会快得多。
因此MySQL对于被驱动表的关联字段没索引的关联查询,一般都会使用 BNL 算法。如果有索引一般选择 NLJ 算法,有索引的情况下 NLJ 算法比 BNL算法性能更高。
in和exsits优化
原则:小表驱动大表 ,即小的数据集驱动大的数据集(应建立索引)
in:当B表的数据集小于A表的数据集时,in优于exists
select * from A where id in (select id from B)
先执行B,B相当于小表,B表数据越少,执行越快