【MySQL实战45讲9】普通索引和唯一索引怎么选择

文章目录

前言

今天的话题是,在不同的业务场景下,应该选择普通索引,还是唯一索引

假设现在维护一个市民系统,每个人都有一个唯一的身份证号,而且业务代码已经保证了写入两个重复的身份证号。如果市民系统需要按照身份证号查姓名,就会执行类似下面的sql语句;

sql 复制代码
select name from CUser where id_card = 'xxxxxxxyyyyyyzzzzz';

这种情况下,会考虑在id_card字段上建索引。

由于身份证号字段比较大,不建议作为主键,那么现在就有了两个选择,要么给id_card字段创建唯一索引,要么创建一个普通索引。如果业务代码已经保证不会写入重复的身份证号,那么这两个选择逻辑上都是正确的。

那么从性能上考虑,应该选择唯一索引还是普通索引呢,对应的依据是什么呢?

以下图为例,假设字段k上的值都不重复

查询过程

假设,执行查询的语句是select id from T where k=5。这个查询在索引树上查找的过程,先是通过B+树从树根开始,按层搜索到叶子节点,也就是图中右下角的这个数据页,然后可以认为数据页内部通过二分法来定位记录。

  • 对于普通索引来说,查找到满足条件的第一个记录(5,500)后,需要查找下一个记录,知道碰到第一个不满足k=5条件的记录
  • 对于唯一索引来说,由于索引定义了唯一性,查找到第一个满足条件的记录后,就会停止继续检索。

这样不同的性能差距其实是微乎其微的。因为,InnoDB的数据是按数据页为单位来读写的 ,也就是说,当需要读一条记录的时候,并不是将这个记录本身从磁盘读出来,而是以页为单位,将其整体读入内存。在InnoDB中,每个数据页的大小默认是16KB。

因为引擎是按页读写的,所以说,当找到k=5的记录的时候,它所在的数据页就都在内存里,那么对于普通索引来说,要多做的那一次"查找和判断下一条记录"的操作,就只需要一次指针寻找和一次计算。

当然,对于k=5是这个数据页的最后一条记录,那么要读取下一条记录,必须读取下个数据页,操作会复杂,但是这种是极端情况,在计算平均性能差异的时候,这个操作成本对CPU来说可以忽略不计。

更新过程

为了说明普通索引和唯一索引对于更新语句的影响,需要先介绍一下change buffer

当需要更新一个数据页时,如果数据页在内存中就直接更新,而如果这个数据页还没有在内存中 的话,在不影响数据一致性的前提下,InnoDB 会将这些更新操作缓存在 change buffer 中,这样就不需要从磁盘中读入这个数据页了 。在下次查询需要访问这个数据页的时候,将数据页读入内存,然后执行 change buffer 中与这个页有关的操作。通过这种方式就能保证这个数据逻辑的正确性。

需要说明的是,虽然名字叫作 change buffer,实际上它是可以持久化的数据。也就是说,change buffer 在内存中有拷贝,也会被写入到磁盘上。

change buffer 中的操作应用到原数据页,得到最新结果的过程称为 merge。除了访问这个数据页会触发 merge 外,系统有后台线程会定期 merge。在数据库正常关闭(shutdown)的过程中,也会执行 merge 操作。

那么,什么条件下可以使用change buffer呢?

对于唯一索引来说,所有的更新操作都要先判断这个操作是否违反唯一性约束。比如,要插入 (4,400) 这个记录,就要先判断现在表中是否已经存在 k=4 的记录,而这必须要将数据页读入内存才能判断。如果都已经读入到内存了,那直接更新内存会更快,就没必要使用 change buffer 了。

因此,唯一索引的更新就不能使用 change buffer,实际上也只有普通索引可以使用。

现在,已经理解了 change buffer 的机制,那么再来看看如果要在这张表中插入一个新记录 (4,400) 的话,InnoDB 的处理流程是怎样的。

第一种情况是,这个记录要更新的目标页在内存中。这时,InnoDB 的处理流程如下:

  • 对于唯一索引来说,找到 3 和 5 之间的位置,判断到没有冲突,插入这个值,语句执行结束;
  • 对于普通索引来说,找到 3 和 5 之间的位置,插入这个值,语句执行结束。

这样,普通索引和唯一索引对更新语句性能影响的差别不大。

但是,第二种情况是,这个记录要更新的目标也不在内存中,这时,InnoDB的处理流程如下:

  • 对于唯一索引 来说,需要将数据页读入内存,判断到没有冲突,插入这个值,语句执行结束;
  • 对于普通索引 来说,则是将更新记录在 change buffer,语句执行就结束了。

将数据从磁盘读入内存涉及随机 IO 的访问,是数据库里面成本最高的操作之一。change buffer 因为减少了随机磁盘访问,所以对更新性能的提升是会很明显的。

change buffer的使用场景

对于写多读少的业务 来说,页面在写完以后马上被访问到的概率比较小,此时change buffer的使用效果最好。这种业务模型常见的就是账单类、日志类的系统

索引选择和实践

普通索引和唯一索引应该怎么选择。其实,这两类索引在查询能力上是没差别的,主要考虑的是对更新性能的影响。所以,建议尽量选择普通索引

如果所有的更新后面,都马上伴随着对这个记录的查询,那么应该关闭 change buffer。而在其他情况下,change buffer 都能提升更新性能。

在实际使用中,会发现,普通索引和 change buffer 的配合使用,对于数据量大的表的更新优化还是很明显的。

相关推荐
20岁30年经验的码农9 分钟前
爬虫基础
1024程序员节
licy__28 分钟前
计算机网络IP地址分类,子网掩码,子网划分复习资料
1024程序员节
Chris-zz1 小时前
Linux:磁盘深潜:探索文件系统、连接之道与库的奥秘
linux·网络·c++·1024程序员节
JasonYin~1 小时前
《探索 HarmonyOS NEXT(5.0):开启构建模块化项目架构奇幻之旅 —— 模块化基础篇》
1024程序员节
Teamol20202 小时前
求助帖:ubuntu22.10 auto install user-data配置了为何还需要选择语言键盘(如何全自动)
linux·ubuntu·1024程序员节
昨天今天明天好多天2 小时前
【Linux】MySQL部署
linux·mysql·adb
我还能再卷一点2 小时前
Linux安装mysql【超详细】
linux·mysql·adb
尘佑不尘2 小时前
shodan5,参数使用,批量查找Mongodb未授权登录,jenkins批量挖掘
数据库·笔记·mongodb·web安全·jenkins·1024程序员节
SeniorMao0073 小时前
结合Intel RealSense深度相机和OpenCV来实现语义SLAM系统
1024程序员节