【MySQL | 第七篇】索引

一、什么是索引？

二、索引结构

[1.B Tree（多路平衡查找树）](#1.B Tree（多路平衡查找树）)

[2.B+ Tree](#2.B+ Tree)

一、什么是索引？

索引（index）是帮助MySQL高效获取数据的数据结构（有序）。在数据之外，数据库系统还维护着满足特定查找算法的数据结构，这些数据结构以某种方式引用数据，这样就可以在这些数据结构上实现高级查找算法，这种数据结构就是索引。

索引的优缺点：

优点：

提高数据检索的效率，降低数据库的IO成本。

通过索引列对数据进行排序，降低数据排序的成本，降低CPU的消耗。

缺点：

索引列也是要占用空间的。

索引大大提高了查询效率，同时却也降低更新表的速度，如对表进行INSERT、UPDATE、DELETE时,效率降低。

二、索引结构

MySQL的索引是在存储引擎层实现的，不同的存储引擎层有不同的结构，主要包含以下几种：

索引结构	描述
B+Tree索引	最常见的索引类型，大部分引擎都支持B+树索引
Hash索引	底层数据结构是用哈希表实现的，只有精准匹配索引列的查询才有效，不支持范围查询。
R-tree(空间索引)	空间索引是MyISAM引擎的一个特殊索引类型，主要用于地理空间数据类型，通常使用较少。
Full-text(全文索引)	是一种通过建立倒排索引，快速匹配文档的方式，类似于Lucene，Solr，ES

当我们使用二叉树来存储数据时：

二叉树缺点：顺序插入时，会形成一个链表，查询性能大大降低。大数据量情况下，层级较深，检索速度慢。

红黑树缺点：大数据量情况下，层级较深，检索速度慢。

1.B Tree（多路平衡查找树）

以一颗最大度数为5的B Tree为例，每个节点最多存储4个key，5个指针：

2.B+ Tree

以一颗最大度数为4的b+ tree为例：

特点：

B+树所有数据都存放在叶子节点

并且叶子节点形成了一个单向链表。

非叶子节点只起到了索引的作用

MySQL索引数据结构对经典的B+Tree进行了优化。在原B+Tree的基础上，增加一个指向相邻叶子节点的链表指针，就形成了带有顺序指针的B+Tree，提高区间访问的性能。

3.hash

哈希索引就是采用一定的hash算法，将键值换算成新的hash值，映射到对应的槽位上，然后存储在hash表中。

如果两个(或多个)键值，映射到一个相同的槽位上，他们就产生了hash冲突(也称为hash碰撞)，可以通过链表来解决。

特点：

Hash索引只能用于对等比较(=，in)，不支持范围查询(between，>，<，...)

无法利用索引完成排序操作

查询效率高，通常只需要一次检索就可以了，效率通常要高于B+tree索引

面试题

为什么InnoDB存储引擎选择使用B+Tree索引结构？

相对于二叉树，层级更少，搜索效率高;

对于B-tree，无论是叶子节点还是非叶子节点，都会保存数据，这样导致一页中存储的键值减少，指针跟着减少，要同样保存大量数据，只能增加树的高度，导致性能降低;

相对Hash索引，B+tree支持范围匹配及排序操作;

三、索引分类

在InnoDB存储引擎中，根据索引的存储形式，又可以分为以下两种：

聚集索引选取规则：

如果存在主键，主键索引就是聚集索引。

如果不存在主键，将使用第一个唯一(UNIQUE)索引作为聚集索引。

如果表没有主键，或没有合适的唯一索引，则nnoDB会自动生成一个rowid作为隐藏的聚集索引。

四、索引语法

创建索引：
sql 复制代码
CREATE [UNIQUE | FULLTEXT] INDEX index_name ON 表名 (index_col_name, ......);
查看索引：
sql 复制代码
SHOW INDEX FROM 表名;
删除索引：
sql 复制代码
DROP INDEX index_name ON 表名;

五、SQL性能分析

SQL执行频率：

sql 复制代码

show global status like 'Com_______';

慢查询日志：

慢查询日志记录了所有执行时间超过指定参数(long_query_time，单位:秒，默认10秒)的所有SQL语句的日志。MySQL的慢查询日志默认没有开启，需要在MySQL的配置文件(/etc/my.cnf)中配置如下信息:

#开启MySQL慢日志查询开关

sql 复制代码

slow_query_log=1

#设置慢日志的时间为2秒，SQL语句执行时间超过2秒，就会视为慢查询，记录慢查询日志。

sql 复制代码

long_query_time=2

profile详情：

执行一系列的业务SQL的操作，然后通过如下指令查看指令的执行耗时:

#查看每一条SQL的耗时基本情况

sql 复制代码

show profiles;

#查看指定query_id的SQL语句各个阶段的耗时情况

sql 复制代码

show profile for query query_id;

#查看指定query_id的SQL语句CPU的使用情况

sql 复制代码

show profile cpu for query query_id;

explain执行计划

EXPLAIN执行计划各字段含义：

id：select查询的序列号，表示查询中执行select子句或者操作表的顺序（id相同，执行顺序从上到下；id不同，值越大，越先执行。）

select_type：表示SELECT的类型，常见的取值有SIMPLE(简单表，即不使用表连接或者子查询)、PRIMARY(主查询，即外层的查询)UNION(UNION中的第二个或者后面的查询语句)、SUBQUERY(SELECT/WHERE之后包含了子查询)等

type：表示连接类型,性能由好到差的连接类型为NULL、system、const、eq_ref、ref、range、index、all。

possible_key：显示可能应用在这张表上的索引，一个或多个。

Key：实际使用的索引，如果为NULL，则没有使用索引。

Key_len：表示索引中使用的字节数，该值为索引字段最大可能长度，并非实际使用长度，在不损失精度的情况下，长度越短越好。

rows：MySQL认为必须要执行查询的行数，在innodb引擎的表中，是一个估计值，可能并不总是准确的。

filtered：表示返回结果的行数占需读取行数的百分比，filtered的值越大越好。