mysql join原理剖析

基础

我先简单介绍下 join,主要分为

  • 内连接:驱动表中的记录在被驱动表中没有匹配的记录,不需要加到结果集;

  • 外连接:驱动表中的记录在被驱动表中没有匹配的记录,需要加到结果集中,用 null 代替。

  • 内连接mysql会选择扫描次数比较少的作为驱动表,where 和 on 子句是等价的。

  • 左外连接左侧表为驱动表,右外连接右侧表为驱动表,左右外连接驱动表和被驱动表不能轻易互换。

  • 外表也称为驱动表,内表也称为被驱动表

原理

然后再说下 join 的原理,join 内部主要有三种算法:

Simple Nested-Loop Join(简单嵌套循环连接)

从表A中取出一条数据,遍历表B,将匹配的结果放到result中。这样效率比较低,表A表数据100条,表B表数据1000条,需要遍历10W条;

Index Nested-Loop Join(索引嵌套循环连接)

优化思路是减少内表数据的匹配次数。要求被驱动表上必须有索引,通过外层表的条件直接与内层索引进行匹配,避免和内表的每条数据作比较,减少内层表匹配次数。

Block Nested-Loop Join(块嵌套循环连接)

为了在不存在索引的情况下 算法不退化成Simple~,引入 Block~。不再逐条获取驱动表数据,而是一块块获取,然后批量对比,减小内表【被驱动表】循环次数(内表数据一次性和join_buffer中多条外表数据做对比)。join_buffer 大小由join_buffer_size设定,默认值为256k。

这种算法对系统影响有三个方面:

  1. 可能多次多次扫描被驱动表,占用磁盘IO;

  2. 判断 Join条件需要执行 M*N次对比,占用较多 CPU资源;

  3. 可能导致 buffer_pool 的热数据淘汰,降低缓存命中率。

关键点及优化

最后说下,join 的一些关键点及优化

关键点

  • 所有参与的列都会保存到 join_buffer 中,并不是只有 join 的列

  • 每次join都需要分配一次Join Buffer(N张表需要join,N-1次分配)

  • left是左边是驱动表,right是右边是驱动表。小表【两个表按照各自的条件过滤,过滤完成之后,计算参与 join 的各个字段的总数据量,数据量小的那个表,就是"小表"】驱动大表

优化

  • MRR 优化:避免回表查询在两个数据页之间反复横跳 ,在从二级索引遍历数据获得主键id回表查询完整数据时,先将获取到的主键id放入一个read_rnd_buffer_size中,排序,然后顺序去主键树上获取完整数据,并返回结果。 如果read_rnd_buffer 不够,则会放满后便去主键树查询,然后返回结果,然后再去二级索引上获取主键id。在执行计划中,可以看到 using MRR。

  • BKA优化:为了在NLJ算法中用到 MRR 优化(NLJ算法中驱动表中的数据是一条一条取得,再去被驱动表中匹配用不上MRR )在驱动表中取数据时批量去取。

相关推荐
Asthenia041236 分钟前
Spring扩展点与工具类获取容器Bean-基于ApplicationContextAware实现非IOC容器中调用IOC的Bean
后端
bobz9651 小时前
ovs patch port 对比 veth pair
后端
Asthenia04121 小时前
Java受检异常与非受检异常分析
后端
uhakadotcom1 小时前
快速开始使用 n8n
后端·面试·github
JavaGuide1 小时前
公司来的新人用字符串存储日期,被组长怒怼了...
后端·mysql
bobz9652 小时前
qemu 网络使用基础
后端
Asthenia04122 小时前
面试攻略:如何应对 Spring 启动流程的层层追问
后端
Asthenia04122 小时前
Spring 启动流程:比喻表达
后端
Asthenia04123 小时前
Spring 启动流程分析-含时序图
后端
ONE_Gua3 小时前
chromium魔改——CDP(Chrome DevTools Protocol)检测01
前端·后端·爬虫