mysql执行顺序与索引算法

mysql执行顺序与索引算法

书写顺序:

  • select->distinct->from->join->on->where->group by->having->order by->limit
  • 必须字段:select、from
  • 可选字段:distinct、join、on、where、group by、having、sum、count、max、avg、order by、limit

执行顺序

  • from->on->join->where->group by(开始使用select中的别名,后面的语句中都可以使用别名)->sum、count、max、avg->having->select->distinct->order by->limit
  • mysql大致执行顺序如下:
    • from 阶段
    • where 阶段
    • group by 阶段
    • having 阶段
    • select 阶段
    • order by 阶段
    • limit 阶段

提问

  • 问题:为什么字段别名不可以使用在where中,但可以使用在order by中?
  • 因为select的执行顺序靠后,所以在它之前执行的查询阶段,都不能使用。而order by阶段是在select的后面,所以是可以使用字段别名的。

关键词含义

  • from:需要从哪个数据表检索数据(需要检索那张数据表)
  • join:对需要关联查询的表进行关联(需要关联那种查询表)
  • 关联查询时,数据库会选择一个驱动表,然后用此表的记录去关联其他表
    left join一般以左表为驱动表(right join一般为右表),inner join一般以结果集少的表为驱动表,left join某些情况下会被查询优化器优化为inner join
  • 驱动表选择原则:在对最终结果集没影响的前提下,优先选择结果集最少的那张表作为驱动表
  • 注:可以使用explain查找驱动表,结果的第一张表即为驱动表,但执行计划在真正执行时可能发生改变
  • on:关联条件
  • where:过滤表中数据的条件
    • 执行顺序:自下而上、从右到左
    • 注:对数据库记录生效,无法对聚合结果生效,可以过滤掉最大数量记录的条件必须写在where子句末尾,不能使用聚合函数(sum、count、max、avg)
      group by:如何将上面过滤出的数据分组
  • group by :如何将上面过滤出的数据分组
    • 执行顺序:从左往右
    • 注:尽量在group by之前使用where过滤,避免之后使用having过滤
  • avg:求平均值
  • having:对上面已经分组的数据进行过滤的条件
    • 注:对聚合结果过滤,因此很耗资源,可以使用聚合函数
    • 例:筛选统计人口数量大于100W的地区
    • select region, sum(population), sum(area) from bbc group by region having sum(population)>1000000,不能用where筛选超过100W的地区,因为不存在这样的一条记录
  • select:查看结果集中的哪个列或列的计算结果
  • distinct:对结果集重复值去重
  • order by :按照什么样的顺序来查看返回的数据
    • 执行顺序:从左到右
    • 注:很耗资源
  • limit:截取出目标页数据

索引关联中使用的算法

  • 在使用索引关联的情况下,有Index Nested-Loop join(索引套用循环连接)和Batched Key Access join(批量密钥访问连接)两种算法
  • 在未使用索引关联的情况下,有Simple Nested-Loop join(简单嵌套循环连接)和Block Nested-Loop join(缓存块嵌套循环连接)两种算法

算法分析

  • Simple Nested-Loop join(SNLJ,简单嵌套循环连接)算法:根据on条件,从驱动表取一条数据,然后全表扫面被驱动表,将符合条件的记录放入最终结果集中。这样驱动表的每条记录都伴随着被驱动表的一次全表扫描
    • 匹配次数:外层表行数
  • Index Nested-Loop Join(INLJ,索引嵌套循环连接)算法:索引嵌套循环连接是基于索引进行连接的算法,索引是基于内层表的,通过外层表匹配条件直接与内层表索引进行匹配,避免和内层表的每条记录进行比较, 从而利用索引的查询减少了对内层表的匹配次数
  • 匹配次数:外层表行数*内层表索引高度
  • Block Nested-Loop Join(BNLJ,缓存块嵌套循环连接)算法:缓存块嵌套循环连接通过一次性缓存多条数据,把参与查询的列缓存到Join Buffer 里,然后拿join buffer里的数据批量与内层表的数据进行匹配,从而减少了内层循环的次数(遍历一次内层表就可以批量匹配一次Join Buffer里面的外层表数据)。
  • 当不使用Index Nested-Loop Join的时候,默认使用Block Nested-Loop Join
  • Batched Key Access join(BKAJ)算法:和SNLJ算法类似,但用于被join表上有索引可以利用,那么在行提交给被join的表之前,对这些行按照索引字段进行排序,因此减少了随机IO,排序这才是两者最大的区别,但是如果被join的表没用索引呢?那就使用BNLJ了

什么是Join Buffer?

  • Join Buffer会缓存所有参与查询的列而不是只有Join的列。
  • 可以通过调整join_buffer_size缓存大小
  • join_buffer_size的默认值是256K,join_buffer_size的最大值在MySQL 5.1.22版本前是4G,而之后的版本才能在64位操作系统下申请大于4G的Join Buffer空间。
  • 使用Block Nested-Loop Join算法需要开启优化器管理配置的optimizer_switch的设置block_nested_loop为on,默认为开启。
  • 在选择Join算法时,会有优先级,理论上会优先判断能否使用INLJ、BNLJ:
  • Index Nested-LoopJoin > Block Nested-Loop Join > Simple Nested-Loop Join

-----------------------------------------------------------------------------------

offer突击训练营简介:

1:针对不知道怎么面试,面试没有信心的小伙伴,我们会给你一个offer保障。

2:我们会监督你15-20天内把面试体系技术点掌握至少7成,这样足够你去找到满意的工作了。

3:我们是面向面试学习指导,不会带你们去写代码,会把项目真实开发的迭代过程和技术细节如何实现业务功能都详细教清楚,你能在面试中流畅表达清楚就行了,项目经验你不用担心(技术老师提供的真实项目经验肯定拿的出手),自己学和别人带着系统学,效率完全不一样。

详情请点击这里offer突击训练营,给你一个offer的保障,求职跳槽的看过来!

相关推荐
invicinble3 小时前
对linux形成认识
linux·运维·服务器
马克Markorg3 小时前
常见的向量数据库和具有向量数据库能力的数据库
数据库
技术路上的探险家3 小时前
8 卡 V100 服务器:基于 vLLM 的 Qwen 大模型高效部署实战
运维·服务器·语言模型
半桔4 小时前
【IO多路转接】高并发服务器实战:Reactor 框架与 Epoll 机制的封装与设计逻辑
linux·运维·服务器·c++·io
绵绵细雨中的乡音4 小时前
深入理解 ET 与 LT 模式及其在 Reactor 模型中的应用
服务器·网络·php
JH30734 小时前
SpringBoot 优雅处理金额格式化:拦截器+自定义注解方案
java·spring boot·spring
HABuo4 小时前
【linux文件系统】磁盘结构&文件系统详谈
linux·运维·服务器·c语言·c++·ubuntu·centos
Howrun7775 小时前
关于Linux服务器的协作问题
linux·运维·服务器
颜酱5 小时前
图结构完全解析:从基础概念到遍历实现
javascript·后端·算法
m0_736919105 小时前
C++代码风格检查工具
开发语言·c++·算法