【MySQL数据库学习】MySQL索引(上)

🔥承渊政道： 个人主页
❄️个人专栏: 《C语言基础语法知识》《数据结构与算法》《C++知识内容》《Linux系统知识》《算法刷题指南》《测评文章活动推广》《大模型语言路线学习》《MySQL数据库学习》
✨逆境不吐心中苦,顺境不忘来时路!✨ 🎬 博主简介:

在学习 MySQL 的过程中,索引是一个绕不开的重要知识点.很多时候,我们会发现同样是一条查询语句,有的执行速度很快,有的却慢得让人怀疑人生,而造成这种差异的关键因素之一,往往就是索引是否设计合理、使用得当.索引就像数据库中的"目录".没有索引时,数据库可能需要一行一行地扫描数据;而有了合适的索引之后,MySQL 就可以更快地定位到目标数据,从而显著提升查询效率.不过,索引并不是越多越好,它在提高查询速度的同时,也会带来额外的存储成本和维护成本.因此,理解索引的底层原理、使用场景以及优化思路,是写出高性能 SQL 的基础.本篇文章是 MySQL 索引学习的上篇,将从索引的基本概念入手,逐步介绍索引的作用、常见类型、底层数据结构以及索引为什么能够提升查询性能.通过这一篇内容,希望能够帮助你建立对 MySQL 索引的整体认知,为后续深入学习索引优化、执行计划分析和 SQL 调优打下基础.废话不多说,下面跟着小编的节奏🎵一起去疯狂的学习吧!

1.MySQL索引介绍

MySQL 索引可以理解为数据库表的"目录".没有索引时,MySQL 查找数据通常要一行一行扫描;有索引后,可以更快定位到目标数据.

一、索引的作用

索引主要用于提升查询效率,常见作用包括：

加快查询速度
sql 复制代码
```
SELECT * FROM user WHERE username = 'admin';
```
如果 username 字段有索引,MySQL 可以更快找到对应记录.

加快排序

sql 复制代码

SELECT * FROM user ORDER BY create_time;

加快分组

sql 复制代码

SELECT dept_id, COUNT(*) FROM employee GROUP BY dept_id;

加快表连接

sql 复制代码

SELECT *
FROM orders o
JOIN user u ON o.user_id = u.id;

二、常见索引类型

主键索引

主键默认会创建索引,不能为 NULL,且必须唯一.

sql 复制代码

CREATE TABLE user (
    id INT PRIMARY KEY,
    username VARCHAR(50)
);

唯一索引

字段值不能重复,但可以提高查询效率.

sql 复制代码

CREATE UNIQUE INDEX idx_username ON user(username);

普通索引

最常见的索引类型,只用于提高查询速度.

sql 复制代码

CREATE INDEX idx_age ON user(age);

联合索引

多个字段组成一个索引.

sql 复制代码

CREATE INDEX idx_name_age ON user(name, age);

查询时要注意最左前缀原则.

sql 复制代码

-- 可以使用索引
SELECT * FROM user WHERE name = '张三';

-- 可以使用索引
SELECT * FROM user WHERE name = '张三' AND age = 20;

-- 不一定能有效使用该联合索引
SELECT * FROM user WHERE age = 20;

三、索引的数据结构

MySQL InnoDB 默认使用 B+Tree 索引.

B+Tree 的特点是：

所有数据都存放在叶子节点
叶子节点之间通过链表连接
非叶子节点只存储索引值
适合范围查询和排序

例如：

sql 复制代码

SELECT * FROM user WHERE age BETWEEN 18 AND 25;

这种范围查询非常适合 B+Tree 索引.

四、聚簇索引和非聚簇索引

聚簇索引

InnoDB 中.主键索引就是聚簇索引.

数据行本身存储在主键索引的叶子节点上.

sql 复制代码

SELECT * FROM user WHERE id = 1;

通过主键查询速度非常快.

非聚簇索引

普通索引的叶子节点中存储的是主键值,而不是完整数据.

例如：

sql 复制代码

SELECT * FROM user WHERE username = 'admin';

如果 username 是普通索引,MySQL 会先通过 username 索引找到主键值,再根据主键去查完整数据,这个过程叫做回表.

五、覆盖索引

如果查询字段都在索引中,就不需要回表，这叫覆盖索引.

sql 复制代码

CREATE INDEX idx_username_age ON user(username, age);

SELECT username, age FROM user WHERE username = 'admin';

因为 username 和 age 都在索引里,所以不需要回表.

六、最左前缀原则

对于联合索引：

sql 复制代码

CREATE INDEX idx_a_b_c ON table_name(a, b, c);

以下查询可以较好使用索引：

sql 复制代码

WHERE a = 1
WHERE a = 1 AND b = 2
WHERE a = 1 AND b = 2 AND c = 3

以下查询无法充分使用该联合索引：

sql 复制代码

WHERE b = 2
WHERE c = 3
WHERE b = 2 AND c = 3

核心规则是：必须从联合索引最左边的字段开始使用.

2.没有索引,可能会有什么问题?

索引：提高数据库的性能,索引是物美价廉的东西了.不用加内存,不用改程序,不用调sql,只要执行正确的 create index,查询速度就可能提高成百上千倍.但是天下没有免费的午餐,查询速度的提高是以插入、更新、删除的速度为代价的,这些写操作,增加了大量的IO.所以它的价值,在于提高一个海量数据的检索速度.

案例：先整一个海量表,在查询的时候,看看没有索引时有什么问题?

sql 复制代码

--构建一个8000000条记录的数据
--构建的海量表数据需要有差异性，所以使用存储过程来创建， 拷贝下面代码就可以了，暂时不用理解
-- 产生随机字符串
delimiter $$
create function rand_string(n INT)
returns varchar(255)
begin
declare chars_str varchar(100) default
'abcdefghijklmnopqrstuvwxyzABCDEFJHIJKLMNOPQRSTUVWXYZ';
declare return_str varchar(255) default '';
declare i int default 0;
while i < n do
set return_str =concat(return_str,substring(chars_str,floor(1+rand()*52),1));
set i = i + 1;
end while;
return return_str;
end $$
delimiter ;
--产生随机数字
delimiter $$
create function rand_num()
returns int(5)
begin
declare i int default 0;
set i = floor(10+rand()*500);
return i;
end $$
delimiter ;
--创建存储过程，向雇员表添加海量数据
delimiter $$
create procedure insert_emp(in start int(10),in max_num int(10))
begin
declare i int default 0;
set autocommit = 0;
repeat
set i = i + 1;
insert into EMP values ((start+i)
,rand_string(6),'SALESMAN',0001,curdate(),2000,400,rand_num());
until i = max_num
end repeat;
commit;
end $$
delimiter ;
-- 执行存储过程，添加8000000条记录
call insert_emp(100001, 8000000);

到此,已经创建出了海量数据的表了.

查询员工编号为998877的员工

可以看到耗时0.01秒,这只是因为我这台电脑配置还比较高,但是对于一般的机器来说就可能需要几秒了,这还是在本机一个人来操作,在实际项目中,如果放在公网中,假如同时有1000个人并发查询,那很可能就死机.

解决方法,创建索引

再测试看看查询时间

3.认识磁盘

MySQL与存储：MySQL 给用户提供存储服务,而存储的都是数据,数据在磁盘这个外设当中.磁盘是计算机中的一个机械设备,相比于计算机其他电子元件,磁盘效率是比较低的,在加上IO本身的特征,可以知道,如何提交效率,是MySQL的一个重要话题.

先来研究一下磁盘：

在看看磁盘中一个盘片：

扇区

数据库文件,本质其实就是保存在磁盘的盘片当中.也就是上面的一个个小格子中,就是我们经常所说的扇区.当然,数据库文件很大,也很多,一定需要占据多个扇区.

题外话：从上图可以看出来,在半径方向上,距离圆心越近,扇区越小,距离圆心越远,扇区越大

那么,所有扇区都是默认512字节吗?目前是的,我们也这样认为.因为保证一个扇区多大,是由

比特位密度决定的.不过最新的磁盘技术,已经慢慢的让扇区大小不同了,不过我们现在暂时不考虑.我们在使用Linux,所看到的大部分目录或者文件,其实就是保存在硬盘当中的.(当然,有一些内存文件系统,如:proc,sys之类,我们不考虑)

所以,最基本的,找到一个文件的全部,本质,就是在磁盘找到所有保存文件的扇区.而我们能够定位任何一个扇区,那么便能找到所有扇区,因为查找方式是一样的.

定位扇区

柱面(磁道): 多盘磁盘,每盘都是双面,大小完全相等.那么同半径的磁道,整体上便构成了一个柱

面.

每个盘面都有一个磁头,那么磁头和盘面的对应关系便是1对1的所以,我们只需要知道,磁头(Heads)、柱面(Cylinder)(等价于磁道)、扇区(Sector)对应的编号.即可在磁盘上定位所要访问的扇区.这种磁盘数据定位方式叫做CHS.不过实际系统软件使用的并不是CHS(但是硬件是),而是 LBA ,一种线性地址,可以想象成虚拟地址与物理地址.系统将LBA 地址最后会转化成为 CHS ,交给磁盘去进行数据读取.不过,我们现在不关心转化细节,知道这个东西,让我们逻辑自洽起来即可.

我们现在已经能够在硬件层面定位,任何一个基本数据块了(扇区).那么在系统软件上,就直接按照扇区(512字节,部分4096字节),进行IO交互吗?不是如果操作系统直接使用硬件提供的数据大小进行交互,那么系统的IO代码,就和硬件强相关,换言之,如果硬件发生变化,系统必须跟着变化

从目前来看,单次IO 512字节,还是太小了.IO单位小,意味着读取同样的数据内容,需要进行多

次磁盘访问,会带来效率的降低.之前学习文件系统,就是在磁盘的基本结构下建立的,文件系统读取基本单位,就不是扇区,而是数据块.故,系统读取磁盘,是以块为单位的,基本单位是4KB.

磁盘随机访问(Random Access)与连续访问(Sequential Access)

随机访问：本次IO所给出的扇区地址和上次IO给出扇区地址不连续,这样的话磁头在两次IO操作之间需要作比较大的移动动作才能重新开始读/写数据.

连续访问：如果当次IO给出的扇区地址与上次IO结束的扇区地址是连续的,那磁头就能很快的开始这次IO操作,这样的多个IO操作称为连续访问.

因此尽管相邻的两次IO操作在同一时刻发出,但如果它们的请求的扇区地址相差很大的话也只能称为随机访问,而非连续访问.

磁盘是通过机械运动进行寻址的,随机访问不需要过多的定位,故效率比较高.

4.MySQL与磁盘交互基本单位

MySQL 作为一款应用软件,可以想象成一种特殊的文件系统.它有着更高的IO场景,所以,为了提高基本的IO效率,MySQL 进行IO的基本单位是16KB (后面统一使用 InnoDB 存储引擎讲解).

也就是说,磁盘这个硬件设备的基本单位是512字节,而 MySQL InnoDB引擎使用16KB进行IO交互.即,MySQL 和磁盘进行数据交互的基本单位是16KB.这个基本数据单元,在 MySQL 这里叫做page(注意和系统的page区分)

5.建立共识

MySQL中的数据文件,是以page为单位保存在磁盘当中的.

MySQL的CURD操作,都需要通过计算,找到对应的插入位置,或者找到对应要修改或者查询的数据.而只要涉及计算,就需要CPU参与,而为了便于CPU参与,一定要能够先将数据移动到内存当中.所以在特定时间内,数据一定是磁盘中有,内存中也有.后续操作完内存数据之后,以特定的刷新策略,刷新到磁盘.而这时,就涉及到磁盘和内存的数据交互,也就是IO了.而此时IO的基本单位就是Page.

为了更好的进行上面的操作,MySQL 服务器在内存中运行的时候,在服务器内部,就申请了被称

为 Buffer Pool 的的大内存空间,来进行各种缓存.其实就是很大的内存空间,来和磁盘数据进

行IO交互.如何更高的效率,一定要尽可能的减少系统和磁盘IO的次数.

🚀真正的勇者不是流泪的人,而是含泪奔跑的人!

敬请期待下一篇文章内容

每日心灵鸡汤: 努力的人,终会迎来光芒!

没有谁的成功是轻轻松松得来的,所有看似闪耀的背后,都藏着无数次咬牙坚持的瞬间.别害怕现在的辛苦,因为你今天流下的汗水,都会成为明天向上的底气.只要目标还在,脚步不停,哪怕走得慢一点,也是在靠近更好的自己.奋斗的路上,或许会有疲惫、迷茫和压力,但请相信:真正拉开差距的,从来不是天赋,而是日复一日的坚持.新的一天,继续努力,继续奔跑.愿你眼里有光,心中有梦,脚下有路,未来可期.