深度剖析 SQL JOIN:底层机制与性能优化策略

前言-join是什么

join是用于,将多个表中的数据依据一定的关联条件进行组合。往往我们用于做条件的等值关联。(不等值的结果集往往非常大)。但不同join sql之间的性能天差地别,让我们看看深入理解join的底层机制,合理的使用join语法。

join的方式

可以想到,join的工作可以被拆解成两步,

  1. 字段匹配:根据条件匹配,不同表的数据
  2. 表合并:将匹配的数据,以及不同表的数据项合并成一张虚拟表

而优化join的关键,就在于理解字段匹配的机制。

字段匹配逻辑

而多张表的匹配,可以想到,可拆解成,先用一张表,作为待匹配集,也被称为驱动表。然后再循环匹配剩下n-1张表。剩下n-1张表,也称为被驱动表

Nested Loop Join

细分类型

Nested Loop Join(嵌套循环连接)MySQL 5.6 支持,可细分为以下几种类型:

  • Simple Nested Loop Join:最为基础的嵌套循环,外层表的每一行都会和内层表的所有行进行比较。
  • Index Nested Loop Join:若内层表存在索引,MySQL 会利用该索引来加速匹配过程,从而减少内层表的扫描行数。
  • Block Nested Loop Join:当没有合适的索引时,MySQL 会使用该算法。它会把外层表的一部分数据加载到缓存中,然后和内层表进行匹配,以此来减少内层表的扫描次数。

Index Nested Loop Join

表关联是使用索引进行匹配的。

Hash Join

在 MySQL 5.6 里,Hash Join 默认是不支持的。Hash Join 是一种更为高效的连接算法,它先对其中一个表构建哈希表,接着再用另一个表去匹配该哈希表,从而减少比较次数。从 MySQL 5.7 开始,InnoDB 存储引擎才支持 Hash Join。

例子

sql 复制代码
SELECT ... FROM R LEFT JOIN S ON R.x = S.x WEHRE ... -R是驱动表

SELECT ... FROM R RIGHT JOIN S ON R.x = S.x WEHRE ... -S是驱动表

SELECT ... FROM R INNER JOIN S ON R.x = S.x WEHRE ... -DB会根据算法,选择驱动表

DB选择驱动表的原则

谁要查询的数据少,谁就是驱动表

Hash Join

hash join用于连接两张表之间,没有索引的情况。

如果强行创建索引,会有问题:

  1. 如果有些列是低选择度的索引,那么创建索引在导入数据时要对数据排序,影响导入性能;
  2. 二级索引会有回表问题,若筛选的数据量比较大,则直接全表扫描会更快。

具体过程

  1. 扫描驱动表,将其中的key value hash起来
  2. 扫描第二张表,根据hash表匹配

总结

  1. JOIN 概述JOIN 用于依据关联条件组合多表数据,常采用等值关联
  2. JOIN 工作步骤 :可拆分为字段匹配表合并两步,优化关键在于理解字段匹配机制。
  3. 字段匹配逻辑 :多表匹配时,选择一张表作为驱动表,其余为被驱动表,依次循环匹配。
  4. Nested Loop Join:MySQL 5.6 支持,分为 Simple、Index 和 Block Nested Loop Join 三种。Index 类型借助内层表索引加速匹配;Block 类型在无合适索引时,将外层表部分数据加载到缓存匹配,减少扫描次数。
  5. Hash Join:MySQL 5.7 起 InnoDB 存储引擎支持。适用于表间无索引的情况,强行创建索引可能影响导入性能或因回表问题降低效率。其过程是先扫描驱动表构建哈希表,再用另一张表匹配。
  6. 驱动表选择原则:数据库通常选择查询数据少的表作为驱动表。
  7. 使用建议 :业务中使用 JOIN 时,要确保驱动表和被驱动表选择正确,并创建预期内的索引。
相关推荐
熊小猿15 小时前
RabbitMQ死信交换机与延迟队列:原理、实现与最佳实践
开发语言·后端·ruby
淘源码d16 小时前
什么是医院随访系统?成熟在用的智慧随访系统源码
java·spring boot·后端·开源·源码·随访系统·随访系统框架
武子康16 小时前
大数据-147 Java 访问 Apache Kudu:从建表到 CRUD(含 KuduSession 刷新模式与多 Master 配置)
大数据·后端·nosql
2301_7951672016 小时前
玩转Rust高级应用 如何让让运算符支持自定义类型,通过运算符重载的方式是针对自定义类型吗?
开发语言·后端·算法·安全·rust
程序猿阿越16 小时前
Kafka源码(七)事务消息
java·后端·源码阅读
ArabySide17 小时前
【Spring Boot】REST与RESTful详解,基于Spring Boot的RESTful API实现
spring boot·后端·restful
程序定小飞17 小时前
基于springboot的学院班级回忆录的设计与实现
java·vue.js·spring boot·后端·spring
dreams_dream19 小时前
Django序列化器
后端·python·django
懷淰メ19 小时前
python3GUI--短视频社交软件 By:Django+PyQt5(前后端分离项目)
后端·python·django·音视频·pyqt·抖音·前后端
有意义19 小时前
从零搭建:json-server+Bootstrap+OpenAI 全栈 AI 小项目
前端·后端·llm