目录
一,初识索引
MySQL索引类似于书籍的索引(目录),每个书籍都有目录,通过目录可以快速定位到要查找的页。
MySQL索引是一种数据结构,用于加快数据库查询的速度和性能。
索引能够显著提高查询的速度,尤其是在大型表中进行搜索时。通过使用索引,MySQL可以直接定位到满足条件的数据行,不需要遍历整个表。
但是查询速度的提高,同时是以插入,更新,和删除的速度为代价的,这些写操作,增加了大量的IO。所以它的价值,在于提高一个海量数据的检索速度。
常见的索引分类:
- 主键索引(primary key)
- 唯一键索引(unique)
- 普通 索引(index)
- 全文索引(fulltext)
二,MySQL与磁盘交互的基本单位
MySQL在应用层给用户提供存储服务,用户可以 进行CURD操作,而存储 的都是数据,数据在磁盘这个外设中。磁盘是计算机的一个机械设备,相比于计算机其他电子元件,磁盘效率是比较低的。我们平时对表的操作 ,都是需要进行IO的。
我们知道,操作系统和磁盘交互(IO)的基本单位是4KB。而MySQL作为一款应用层软件,可以想象成 一种特殊的文件系统。它有着更高的IO场景,所以,为了提高基本的IO效率,MySQL和磁盘进行数据交互的基本单位是16KB(存储引擎为Innodb)。这个基本数据单元,在MySQL中叫做page。


三,MySQL中数据文件的特性
MySQL中的数据文件,是以page为单位保存在磁盘上的。
MySQL的CURD操作,都是需要计算的,找到对应的插入位置,找到对应要修改或者查询的数据。
而只要涉及到计算,就需要CPU的参与,而为了便于CPU的参与,一定要先将数据移到内存中。
所以再特定时间内,数据一定是磁盘中有,内存中也有。后序操作完内存数据之后,以特点的刷新策略,刷新的磁盘上。而这时就涉及 到磁盘和内存的数据交互,也就是IO了。此时IO的基本单位是page。
为了更好的进行上面的操作,MySQL服务器在内存中运行的时候,在服务器内部,就申请了Buffer pool的大内存空间,来进行各种缓存。其实就是很大的空间,来和磁盘进行IO交互。
在Innodb存储引擎下,Buffer pool的大小为128M。MySQL需要自己对这部分空间进行管理。
为了更高的效率,一定要尽可能的减少系统的磁盘的IO次数。
四,理解page和索引
MySQL内部,将来Buffer pool缓冲区中一定需要并且存在大量的page,所以MySQL必须将这些page管理起来。通过"先描述,再组织"。所以page内部并不是单纯的存储数据,page内部也需要写入对应的管理信息。我们目前可以简单的理解成一个个独立的文件是由一个或者多个page构成的。

思考一下:为何MySQL和磁盘进行IO交互时候,要采用page的方案进行交互呢?为什么不是用多少加载多少呢?
- 因为预加载可以有效减少IO的次数。通过局部性原理,当前访问某些数据或代码的某一行时,下次访问可能会在这次访问的周边进行访问。
- 往往IO效率低下的最主要矛盾不是单次IO数据量的大小,而是IO的次数。

不同的page,再MySQL中都是16KB,使用prev和next构成双向链表。
- 上面的单个页,在查询数据的时候,直接将一整页的数据加载到内存,以减少硬盘IO次数,从而提高性能。但是,我们也可以看到,现在的页内部,实际上是采用了链表的结构,前一条数据指向后一条数据,本质上还是通过数据的逐条比较来取出特定的数据。
- 如果有1千万条数据,一定需要多个page页保存起来,多个page彼此采用双向链表连接起来,而每个page内部也是有 链表来管理的。那么查找特定的一条记录,也一定是线性查找,效率太低了。
所以这时就需要引入目录了。
页目录:
就以书籍为例,每本数都有目录。我们如果要看指定的章节,找到章节有两种做法:
- 从头逐页的向后翻,直到找到目标内容。
- 通过提供的目录,找到指定的页数。当然在找目录的过程中,可以顺序查找,不过因为目录肯定少,所以可以快速提高定位。
- 本质上,书本中的目录是花了额外的纸做的,但却提高了效率。
- 所以,目录是一种空间换时间的做法。
单页情况:
针对之前链式结构的page页,我们可以引入页目录。

那么当前,在一个page内部,引入了页目录。 比如,要查找id=4的记录,之前线性遍历4次,才能拿到结果。现在直接通过目录2,直接定位新的其实位置,提高了效率。
多页情况:
MySQL中每一页的大小只有16KB,单个page大小固定,所以随着数据量不断增大,16KB不能存下所有数据,那么必定会有多个页来存储数据。

在单表数据不断被插入 的情况下,MySQL会在容量不足的时候,自动开辟新的page来保存新的数据,然偶通过指针的方式马,将所有page组织起来。
这样我们就可以通过多个page的遍历,page内部通过目录快速定位数据。可是这样,貌似也有效率问题,在page之间,还是线性遍历,意味着还是需要大量的IO。将下一个page加载到内存,进行线性检测。这样就显得我们 page内部的目录有点杯水车薪了。
解决方案,给page也带上目录:
- 使用一个目录项来指向某一页,而这个目录项不存放数据,只存放它指向page中最小数据的键值
- 和页内目录不同,这种目录管理的是页,而页内目录管理的是数据。
- 其中,每个目录项的构成是键值+指针。

目录页(page目录)管理一个个的目录,目录页中的数据存放的就是指向那一页中最小的数据。通过该数据,与我们要查找的数据进行比较,找到访问哪个page。
对于一个page目录,它的大小是16KB,假设忽略掉前后指针,该page只存储一个数据和对应的指针,在64位环境下,16*1024/(4+8)=1365。即一个page目录,大概可以管理1365个page。也就是1365*1024/1024/1024=21MB,大概可以管理21MB的数据。
但是,我们的page目录也可能会产生线性遍历造成的多次IO,降低效率问题。同样,我们可以在上层再加一层目录page。
一般而言,两三层的设计已经足够了 ,可以管理特别大的数据。
这个结构就是B+树。
但是,实际存储的时候,除了叶子节点之间还会以链表的形式连接,其他节点都不会连接。这刚好符合B+树!
注意:
叶子节点保存有数据,其他节点不保存数据,只保存目录项 。???
原因:非叶子节点不保存数据,那么就可以存储更多的目录项,目录页,就可以管理更多的page。换句话说,查找数据时,可以淘汰掉的目录页更多,进行 IO的次数就可以大大减少。在IO层面,提高了效率。同时,每一个page节点,都有目录项,大大提高了搜索效率。
叶子节点为什么全部链接起来???
首先,这是B+树的特点。所以MySQL使用这种数据结构。
方便进行范围查找。
上面的图,描述的就是MySQL innodb 下的索引结构。我们在建表的时候,就会生成这样一颗B+树,他会将我们表中的主键一列作为索引,而如果我们在建表的时候没有指明主键,系统会默认生成一个主键。一般我们插入数据的时候,就是在该结构下进行CURD的。
总结:
- page分为目录页和数据页。目录页只存放各个下级page的最小键值。
- 查找的时候,自顶向下,只需加载部分目录页到内存,即可完成查找过程,大大较少了IO次数。
五,聚簇索引和非聚簇索引
前面所讲到的都是innodb存储引擎下的结构。
**聚簇索引:**innodb存储引擎下的结构就是聚簇索引,在叶子节点中,索引page和数据page放在一起存储。
非聚簇索引:MyISAM存储引擎下的结构就是非聚簇索引,在叶子节点中,索引page和数据page分开存储。也就是说叶子 节点没有数据,只有对应数据的地址。
验证:
mysql> create table test1(
-> id int primary key,
-> name varchar(20) not null)engine=innodb;


mysql> create table test2( id int primary key, name varchar(20) not nuull)engine=MyISAM;

当然,MySQL除了默认会建立主键索引外,我们用户也有可能按照其他列信息建立索引,一般这种索引叫做普通索引。
- 对于MyISAM而言,建立主键索引和普通索引没有区别,主键索引的叶子节点存储的是指向数据的指针,那么创建普通索引的时候,就是再创建一个B+树,以指定列作为键值,叶子节点存储指向数据的指针即可。所以,建立普通索引和主键索引没有区别。
- 而对于Innode而言,我们知道主键索引对应的B+树,叶子节点会存放主键值和数据。在我们创建普通索引的时候,同样会创建一颗B+树,以指定列为键值,但是叶子节点中不存储数据,而是存储主键值。在查数据的时候,需要两边索引:首先通过普通索引(普通索引对应的B+树)查找到主键值,然后通过主键值在主键索引(主键对应的B+树)中查找数据。这种过程,叫做回表查询。
所以,建立索引本质就是以该列为键值,创建一颗B+树。
六,索引操作
查询索引
show keys from 表名;
show index from 表名;

创建主键索引
- 第一种方式
-- 在创建表的时候,直接在字段名后指定 primary key
create table user1(id int primary key, name varchar ( 30 ));
- 第二种方式
-- 在创建表的最后,指定某列或某几列为主键索引
create table user2(id int , name varchar ( 30 ), primary key(id));
- 第三种方式
create table user3(id int , name varchar ( 30 ));
-- 创建表以后再添加主键
alter table user3 add primary key(id);
主键索引的特点:
创建主键索引的列,它的值不能为null,且不能重复
主键索引的列基本上是int
一个表中,最多有一个主键索引,当然可以使用复合主键
主键索引的效率高(主键不可重复)
唯一索引的创建
- 第一种方式
-- 在表定义时,在某列后直接指定 unique 唯一属性。
create table user4(id int primary key, name varchar ( 30 ) unique);
- 第二种方式
-- 创建表时,在表的后面指定某列或某几列为 unique
create table user5(id int primary key, name varchar ( 30 ), unique(name));
- 第三种方式
create table user6(id int primary key, name varchar(30));
alter table user6 add unique(name);
唯一索引的特点:
- 一个表中,可以有多个唯一索引
- 查询效率高
- 如果在某一列建立唯一索引,必须保证这列不能有重复数据
- 如果一个唯一索引上指定not null,等价于主键索引
案列:
mysql> alter table test1 add unique(name);

普通索引的创建
- 第一种方式
create table user8(id int primary key,
name varchar ( 20 ),
email varchar ( 30 ),
index(name) --在表的定义最后,指定某列为索引);
- 第二种方式
create table user9(id int primary key, name varchar ( 20 ), email
varchar ( 30 ));
alter table user9 add index(name); -- 创建完表以后指定某列为普通索引
- 第三种方式
create table user10(id int primary key, name varchar ( 20 ), email
varchar ( 30 ));
-- 创建一个索引名为 idx_name 的索引
create index idx_name on user10(name);//给索引起名字idx_name
普通索引的特点:
- 一个表中可以有多个普通索引,普通索引在实际开发中用的比较多
- 如果某列需要创建索引,但是该列有重复的值,那么我们就应该使用普通索引
全文索引的创建
当对文章字段或有大量文字的字段进行检索时,会使用到全文索引。 MySQL 提供全文索引机制,但是有 要求,要求表的存储引擎必须是MyISAM ,而且默认的全文索引支持英文,不支持中文。
案列:
mysql> create table articles(
-> id int unsigned auto_increment not null primary key,
-> title varchar(200),
-> body text,
-> FULLTEXT(title,body))engine=myisam;
- 查询文章中有没有database数据
如果使用如下查询方式,虽然查询出数据,但是没有使用到全文索引:
mysql> select * from articles where body like '%database%';

可以使用 explain工具看一下,是否使用到索引

使用全文索引:
mysql> select * from articles where match(title,body) against ('database');

删除索引
删除主键索引
alter table 表名 drop primary key;
删除其他索引
alter table 表名 drop index 索引名;
//索引名就是show keys from表名结果种的key_name字段
drop index 索引名 on 表名;
索引创建原则
- 比较频繁作为查询条件的字段应该创建索引
- 唯一性太差的字段不适合单独创建索引,即使频繁作为查询条件
- 更新非常频繁的字段不适合作创建索引
- 不会出现在where子句中的字段不该创建索引