mysql join原理剖析

基础

我先简单介绍下 join,主要分为

  • 内连接:驱动表中的记录在被驱动表中没有匹配的记录,不需要加到结果集;

  • 外连接:驱动表中的记录在被驱动表中没有匹配的记录,需要加到结果集中,用 null 代替。

  • 内连接mysql会选择扫描次数比较少的作为驱动表,where 和 on 子句是等价的。

  • 左外连接左侧表为驱动表,右外连接右侧表为驱动表,左右外连接驱动表和被驱动表不能轻易互换。

  • 外表也称为驱动表,内表也称为被驱动表

原理

然后再说下 join 的原理,join 内部主要有三种算法:

Simple Nested-Loop Join(简单嵌套循环连接)

从表A中取出一条数据,遍历表B,将匹配的结果放到result中。这样效率比较低,表A表数据100条,表B表数据1000条,需要遍历10W条;

Index Nested-Loop Join(索引嵌套循环连接)

优化思路是减少内表数据的匹配次数。要求被驱动表上必须有索引,通过外层表的条件直接与内层索引进行匹配,避免和内表的每条数据作比较,减少内层表匹配次数。

Block Nested-Loop Join(块嵌套循环连接)

为了在不存在索引的情况下 算法不退化成Simple~,引入 Block~。不再逐条获取驱动表数据,而是一块块获取,然后批量对比,减小内表【被驱动表】循环次数(内表数据一次性和join_buffer中多条外表数据做对比)。join_buffer 大小由join_buffer_size设定,默认值为256k。

这种算法对系统影响有三个方面:

  1. 可能多次多次扫描被驱动表,占用磁盘IO;

  2. 判断 Join条件需要执行 M*N次对比,占用较多 CPU资源;

  3. 可能导致 buffer_pool 的热数据淘汰,降低缓存命中率。

关键点及优化

最后说下,join 的一些关键点及优化

关键点

  • 所有参与的列都会保存到 join_buffer 中,并不是只有 join 的列

  • 每次join都需要分配一次Join Buffer(N张表需要join,N-1次分配)

  • left是左边是驱动表,right是右边是驱动表。小表【两个表按照各自的条件过滤,过滤完成之后,计算参与 join 的各个字段的总数据量,数据量小的那个表,就是"小表"】驱动大表

优化

  • MRR 优化:避免回表查询在两个数据页之间反复横跳 ,在从二级索引遍历数据获得主键id回表查询完整数据时,先将获取到的主键id放入一个read_rnd_buffer_size中,排序,然后顺序去主键树上获取完整数据,并返回结果。 如果read_rnd_buffer 不够,则会放满后便去主键树查询,然后返回结果,然后再去二级索引上获取主键id。在执行计划中,可以看到 using MRR。

  • BKA优化:为了在NLJ算法中用到 MRR 优化(NLJ算法中驱动表中的数据是一条一条取得,再去被驱动表中匹配用不上MRR )在驱动表中取数据时批量去取。

相关推荐
JustHappy6 小时前
古法编程秘籍(七):互联网到底是什么?把两台电脑怎么说话搞懂就够了
前端·后端·网络协议
Hommy887 小时前
【剪映小助手】添加图片接口(Add Images)
后端·github·剪映小助手·视频剪辑自动化
GetcharZp7 小时前
别再盲目用 OpenCV 读图了,这才是 CV 预处理的终极杀手锏!
后端
IT_陈寒11 小时前
Vite热更新失效?可能你在用Windows
前端·人工智能·后端
椰椰椰耶12 小时前
[SpringCloud][14]OpenFeign参数传递方法
后端·spring·spring cloud
onething36512 小时前
Spring Boot + Spring AI 从入门到实战:7天转型计划 Day 3 —— 消息表设计 + 级联删除 + 事务管理
人工智能·后端
荣江12 小时前
Hermes Agent 代码仓库打包工具使用指南(repomix-rs 高性能版)
后端
王某某人12 小时前
LangChain4j 入门:Java 程序员的第一个 AI 对话程序
人工智能·后端
码农刚子12 小时前
从零开始:在 Windows 服务器上部署 Node.js 项目(小白实战教程)
后端·node.js
Cache技术分享12 小时前
435. Java 日期时间 API - Clock 灵活获取当前时间
前端·后端