《从根上理解MySQL是怎样运行的》第十二章学习笔记

第12章 谁最便宜就选谁-MySQL基于成本的优化

什么是成本

查询的时候MySQL总是根据最低成本选择查询方法,但是这个成本具体是什么呢?

(1)I/O成本

查询记录都是将数据或者索引加载到内存中进行的操作,这个加载的时间损耗称之为I/O成本,也就是时间成本

(2)CPU成本

读取和筛选都需要时间,损耗的时间称之为CPU成本。其实也很好理解,因为这些工作都是交给CPU来处理的,CPU花时间才能得到结果

对于InnoDB存储引擎来说,页是磁盘和内存的交互的基本单位,固定一个页面花费的成本是1,查询一条符合要求的记录是0.2。这些数字称之为成本常数


单表查询成本

执行查询之前优化器会找到所有可能实现的方案,然后选择一个最优的方案------成本最低的选择

这个最终准备执行的方案就是执行计划。然后通过它调用存储引擎的结果执行查询

总结一下过程:

(1)根据条件找出所有可用的索引

(2)预估全盘扫描的代价

(3)计算使用索引的代价

(4)对比各种方案的成本,选择成本最低的


(1)查找所有可用的索引

只要搜索条件可能使用到索引(比如=、 IS NOT这些),那么就根据条件查找即可

可能使用到的索引称之为possible keys


(2)全盘扫描的代价

对于InnoDB来说就是将主键值B+树(聚簇索引)中的记录和筛选条件进行筛选。得到符合要求的结果集

因此需要将语句索引加载到内存中,然后检测记录是否符合要求,再根据两个常数计算查询成本:

页面数 + 记录数

这些信息是自动统计的。

然后通过这些信息计算:

I/O成本 + CPU成本


(3)计算使用不同索引执行查询的代价

优化器先分析唯一的二级索引(如果有的话),然后再分析普通索引的查询成本。总之就是分别单独分析不同的索引的查询成本。

期间可能还可以使用索引合并

同样的,还是使用成本常数进行两个成本的计算

默认读取一个索引区间范围内的I/O成本和读取一个页是一样的:通过一个范围得到一个索引I/O成本

然后使用算法求出范围内的记录数,计算得到CPU成本

回表还会带来I/O成本

回表得到记录以后还需要满足其他的搜索条件,这也需要CPU成本

将上述的所有成本加起来就是最终的成本了


(4)对比各种方案,选择最合适的

这里就比较简单了,直接就是比较各个方案的成本数值,选出最低的成本方案即可


基于索引统计数据的成本计算

有时候使用索引执行查询的时候会有许多的单点区间,比如使用IN语句就会产生很多的单点区间:

SELECT * FROM single_table WHERE key1 IN ('aaa',`````);

MySQL使用index dive的方式来计算记录数:通过访问索引对应的B+树来计算记录的条数:获取最左边和最右边的记录,然后数个数即可

但是如果IN语句里面丢了很多的参数,那么这样的方法可就应付不过来了

于是MySQL的设计师设计了一个门限系统变量:range-index-dive-limit

一般超过200个就不使用index dive方法了,而是使用索引统计数据:

该表中的记录数和索引列中不重复值的个数(Cardinality属性)

有这两个参数就可以计算索引列中单个值重复出现的次数:

应用:

假如IN后面跟了300个参数,一个参数大约对应10条记录

那么估算出需要回表的记录数是: 300 * 10 = 3000

总之这是一个粗略的算法,具体来说的细节其实我并不关心哈哈哈哈💦

知道这个方法就是一个估算回表数的一个算法即可


连接查询的成本

MySQL的连接本质上是全套循环的连接算法,所以对于两表连接查询的来说,成本由两部分组成:

单次查询驱动表的成本,多次查询被驱动表的成本

具体成本的计算MySQL是设计了一个猜的方案,具体怎么才到过程是condition filtering

到底怎么实现的就不用关心了,可能非常复杂,只用知道这个过程是靠猜测实现的


两表连接的成本分析

多表连接的成本分析

调节成本常数


总结:

我个人认为这一章主要是介绍优化器选择方案的方式------成本选择

我感觉具体的原理不用很深入的学习,了解一下作用机制即可,全部掌握细节未免太过于枯燥了害害害💦

相关推荐
ohoy3 小时前
mysql 30天自动补0
数据库·mysql
upper20204 小时前
【炒股学习】集合竞价
学习·区块链
以孝治家行动4 小时前
线上共读传孝道 身体力行润家风——以孝治家家教中心开展线上学习
学习
大学生资源网4 小时前
java毕业设计之儿童福利院管理系统的设计与实现(源码+)
java·开发语言·spring boot·mysql·毕业设计·源码·课程设计
小智RE0-走在路上6 小时前
Python学习笔记(8) --函数的多返回值,不同传参,匿名函数
笔记·python·学习
摇滚侠6 小时前
Redis 零基础到进阶,Redis 哨兵监控,笔记63-73
数据库·redis·笔记
利剑 -~6 小时前
mysql面试题整理
android·数据库·mysql
程序员卷卷狗6 小时前
Redis事务与MySQL事务有什么区别?一文分清
数据库·redis·mysql
老王熬夜敲代码6 小时前
网络中数据传输的具体过程
linux·网络·笔记
charlie1145141917 小时前
现代C++嵌入式教程:C++98基础特性:从C到C++的演进(1)
c语言·开发语言·c++·笔记·学习·教程