什么是MySQL JOIN查询的驱动表和被驱动表?

在《在连表查询场景下,MySQL隐式转换存在的坑》一文中,我们讲到,当进行连表查询时,如果关联类型使用不当会发生隐式转换,MySQL 查询优化器会根据索引可用性调整驱动表和被驱动表的选择顺序。这里涉及到驱动表被驱动表两个概念。这篇文章我们重点讲解这两个概念的运用。

在数据库查询优化中,驱动表被驱动表 是两种重要的概念,主要与 JOIN 查询 的执行顺序有关。它们描述的是在多表连接 (JOIN) 操作中,MySQL 优化器选择的查询顺序和策略:查询从哪张表开始检索数据(驱动表),以及它如何依赖另一张表来查询(被驱动表)。

1. 驱动表和被驱动表的定义

驱动表(Driving Table):

驱动表是 MySQL 优化器选择的 优先查询的表。查询先从驱动表中检索数据,再根据驱动表的结果与被驱动表进行关联。驱动表通常记录较少、匹配数据更精准,或能利用索引高效查找的数据表。

被驱动表(Driven Table):

被驱动表是 MySQL 优化器选择的 后查询的表,在数据关联阶段依赖驱动表的中间结果。驱动表提供关联条件后,被驱动表通过这些条件确认匹配的数据。

2. 驱动表与被驱动表的关系

驱动表与被驱动表通常由 JOIN 查询 的优化策略决定。例如以下查询:

vbnet 复制代码
SELECT * FROM tableA JOIN tableB ON tableA.id = tableB.id;

这里 tableAtableB 之间的连接关系可能由以下因素决定哪张表是驱动表:

  1. 数据量: 优化器倾向选择数据量较小的表作为驱动表,以减少查询的匹配数据范围。
  2. 索引使用情况: 如果某张表的查询能够充分利用索引,通常会选择该表作为驱动表。
  3. 过滤条件 : 如果某张表有强过滤条件(如 WHERE 子句带有索引字段的过滤),优化器更倾向于优先查询并处理该表。

3. 驱动表和被驱动表的执行顺序

执行顺序

JOIN 查询两张表时:

  1. MySQL 会先选一个表作为驱动表,先查询驱动表的记录。
  2. 在查询驱动表的结果集后,逐条匹配被驱动表的数据。
  3. 最终返回满足连接条件的数据结果。

影响更明显的场景

  • 嵌套循环连接(Nested Loop Join) 中,驱动表是最先遍历的表,而被驱动表会根据驱动表的结果逐条进行关联查询。
  • HASH JOIN 或 BLOCK-NESTED JOIN 中,驱动表通常用来构建哈希表或索引结构,被驱动表依赖这个结构进行匹配。

4. 举例说明

表结构和数据:

sql 复制代码
CREATE TABLE tableA (
    id INT PRIMARY KEY,
    name VARCHAR(50)
);
​
CREATE TABLE tableB (
    id INT PRIMARY KEY,
    value VARCHAR(50)
);
​
INSERT INTO tableA VALUES (1, 'Alice'), (2, 'Bob'), (3, 'Charlie');
INSERT INTO tableB VALUES (1, 'X'), (3, 'Y');

查询:

yaml 复制代码
mysql> EXPLAIN SELECT * FROM tableA JOIN tableB ON tableA.id = tableB.id \G
*************************** 1. row ***************************
           id: 1
  select_type: SIMPLE
        table: tableB
   partitions: NULL
         type: ALL
possible_keys: PRIMARY
          key: NULL
      key_len: NULL
          ref: NULL
         rows: 2
     filtered: 100.00
        Extra: NULL
*************************** 2. row ***************************
           id: 1
  select_type: SIMPLE
        table: tableA
   partitions: NULL
         type: eq_ref
possible_keys: PRIMARY
          key: PRIMARY
      key_len: 4
          ref: article.tableB.id
         rows: 1
     filtered: 100.00
        Extra: NULL

分析结果:

  • tableB 是驱动表,查询首先从 tableB 中提取所有记录。
  • 原因:tableB 数据量较少,可能更适合优化器作为驱动表。
  • tableA 是被驱动表,基于 tableB.id 的结果匹配 tableA.id

5. 如何决定驱动表?

MySQL 优化器决定驱动表的依据包括以下因素:

1. 数据量

  • 数据量较少的表通常成为驱动表,因为优先从这张表中提取少量记录,有助于简化后续查询。

2. 索引

  • 能够利用索引的表通常作为驱动表,由于索引可以快速定位记录,降低查询成本。

3. 过滤条件

  • 如果某张表有显著的过滤条件(如 WHERE),优化器倾向把这张表作为驱动表进行筛选。

4. JOIN 类型

  • 在某些 JOIN 查询中(如 INNER JOIN),优化器会选择效率最高的表作为驱动表,无论连接的逻辑顺序如何。

6. 优化驱动表的选择

1. 使用 EXPLAIN

通过 EXPLAIN 分析查询,观察优化器选择的驱动表和被驱动表:

sql 复制代码
EXPLAIN SELECT * FROM tableA INNER JOIN tableB ON tableA.id = tableB.id;

2. 强制指定驱动表

优化器通常智能地选择驱动表,但在某些场景下你可以通过子查询、提示(HINTS)等显式指定驱动表。例如:

vbnet 复制代码
SELECT * FROM (SELECT * FROM tableA WHERE id = 1) AS tempA
JOIN tableB ON tempA.id = tableB.id;

3. 添加索引

在表上添加适当的索引,可以提高优化器选择作为驱动表的效率。

sql 复制代码
ALTER TABLE tableA ADD INDEX idx_id(id);
ALTER TABLE tableB ADD INDEX idx_id(id);

小结

总结一下:

  • 驱动表 是被优先扫描的表,在提供 JOIN 条件之前被查询。
  • 被驱动表依赖驱动表的结果进行匹配查询。
  • 驱动表选择影响查询性能,应优先确保驱动表数据量较小、索引使用率高。
  • 通过 EXPLAIN 可以检查驱动表和被驱动表的选择,并进行针对性的优化。
相关推荐
你想考研啊1 小时前
oracle导出 导入
数据库·oracle
码事漫谈3 小时前
C++死锁深度解析:从成因到预防与避免
后端
码事漫谈3 小时前
智能体颠覆教育行业:现状、应用与未来展望调研报告
后端
蓝-萧3 小时前
【玩转全栈】----Django基本配置和介绍
java·后端
priority_key3 小时前
排序算法:堆排序、快速排序、归并排序
java·后端·算法·排序算法·归并排序·堆排序·快速排序
韩立学长3 小时前
基于Springboot的旧时月历史论坛4099k6s9(程序、源码、数据库、调试部署方案及开发环境)系统界面展示及获取方式置于文档末尾,可供参考。
数据库·spring boot·后端
TDengine (老段)4 小时前
TDengine 字符串函数 CONCAT_WS 用户手册
android·大数据·数据库·时序数据库·tdengine·涛思数据
汤姆yu5 小时前
基于SpringBoot的动漫周边商场系统的设计与开发
java·spring boot·后端
IT 小阿姨(数据库)5 小时前
PostgreSQL 之上的开源时序数据库 TimescaleDB 详解
运维·数据库·sql·postgresql·开源·centos·时序数据库
灰小猿5 小时前
Spring前后端分离项目时间格式转换问题全局配置解决
java·前端·后端·spring·spring cloud