在《在连表查询场景下,MySQL隐式转换存在的坑》一文中,我们讲到,当进行连表查询时,如果关联类型使用不当会发生隐式转换,MySQL 查询优化器会根据索引可用性调整驱动表和被驱动表的选择顺序。这里涉及到驱动表 和被驱动表两个概念。这篇文章我们重点讲解这两个概念的运用。
在数据库查询优化中,驱动表 和被驱动表 是两种重要的概念,主要与 JOIN 查询 的执行顺序有关。它们描述的是在多表连接 (JOIN
) 操作中,MySQL 优化器选择的查询顺序和策略:查询从哪张表开始检索数据(驱动表),以及它如何依赖另一张表来查询(被驱动表)。
1. 驱动表和被驱动表的定义
驱动表(Driving Table):
驱动表是 MySQL 优化器选择的 优先查询的表。查询先从驱动表中检索数据,再根据驱动表的结果与被驱动表进行关联。驱动表通常记录较少、匹配数据更精准,或能利用索引高效查找的数据表。
被驱动表(Driven Table):
被驱动表是 MySQL 优化器选择的 后查询的表,在数据关联阶段依赖驱动表的中间结果。驱动表提供关联条件后,被驱动表通过这些条件确认匹配的数据。
2. 驱动表与被驱动表的关系
驱动表与被驱动表通常由 JOIN 查询 的优化策略决定。例如以下查询:
vbnet
SELECT * FROM tableA JOIN tableB ON tableA.id = tableB.id;
这里 tableA
和 tableB
之间的连接关系可能由以下因素决定哪张表是驱动表:
- 数据量: 优化器倾向选择数据量较小的表作为驱动表,以减少查询的匹配数据范围。
- 索引使用情况: 如果某张表的查询能够充分利用索引,通常会选择该表作为驱动表。
- 过滤条件 : 如果某张表有强过滤条件(如
WHERE
子句带有索引字段的过滤),优化器更倾向于优先查询并处理该表。
3. 驱动表和被驱动表的执行顺序
执行顺序
当 JOIN 查询两张表时:
- MySQL 会先选一个表作为驱动表,先查询驱动表的记录。
- 在查询驱动表的结果集后,逐条匹配被驱动表的数据。
- 最终返回满足连接条件的数据结果。
影响更明显的场景
- 在 嵌套循环连接(Nested Loop Join) 中,驱动表是最先遍历的表,而被驱动表会根据驱动表的结果逐条进行关联查询。
- 在 HASH JOIN 或 BLOCK-NESTED JOIN 中,驱动表通常用来构建哈希表或索引结构,被驱动表依赖这个结构进行匹配。
4. 举例说明
表结构和数据:
sql
CREATE TABLE tableA (
id INT PRIMARY KEY,
name VARCHAR(50)
);
CREATE TABLE tableB (
id INT PRIMARY KEY,
value VARCHAR(50)
);
INSERT INTO tableA VALUES (1, 'Alice'), (2, 'Bob'), (3, 'Charlie');
INSERT INTO tableB VALUES (1, 'X'), (3, 'Y');
查询:
yaml
mysql> EXPLAIN SELECT * FROM tableA JOIN tableB ON tableA.id = tableB.id \G
*************************** 1. row ***************************
id: 1
select_type: SIMPLE
table: tableB
partitions: NULL
type: ALL
possible_keys: PRIMARY
key: NULL
key_len: NULL
ref: NULL
rows: 2
filtered: 100.00
Extra: NULL
*************************** 2. row ***************************
id: 1
select_type: SIMPLE
table: tableA
partitions: NULL
type: eq_ref
possible_keys: PRIMARY
key: PRIMARY
key_len: 4
ref: article.tableB.id
rows: 1
filtered: 100.00
Extra: NULL
分析结果:
tableB
是驱动表,查询首先从tableB
中提取所有记录。
- 原因:
tableB
数据量较少,可能更适合优化器作为驱动表。
tableA
是被驱动表,基于tableB.id
的结果匹配tableA.id
。
5. 如何决定驱动表?
MySQL 优化器决定驱动表的依据包括以下因素:
1. 数据量
- 数据量较少的表通常成为驱动表,因为优先从这张表中提取少量记录,有助于简化后续查询。
2. 索引
- 能够利用索引的表通常作为驱动表,由于索引可以快速定位记录,降低查询成本。
3. 过滤条件
- 如果某张表有显著的过滤条件(如
WHERE
),优化器倾向把这张表作为驱动表进行筛选。
4. JOIN 类型
- 在某些 JOIN 查询中(如
INNER JOIN
),优化器会选择效率最高的表作为驱动表,无论连接的逻辑顺序如何。
6. 优化驱动表的选择
1. 使用 EXPLAIN
通过 EXPLAIN
分析查询,观察优化器选择的驱动表和被驱动表:
sql
EXPLAIN SELECT * FROM tableA INNER JOIN tableB ON tableA.id = tableB.id;
2. 强制指定驱动表
优化器通常智能地选择驱动表,但在某些场景下你可以通过子查询、提示(HINTS)等显式指定驱动表。例如:
vbnet
SELECT * FROM (SELECT * FROM tableA WHERE id = 1) AS tempA
JOIN tableB ON tempA.id = tableB.id;
3. 添加索引
在表上添加适当的索引,可以提高优化器选择作为驱动表的效率。
sql
ALTER TABLE tableA ADD INDEX idx_id(id);
ALTER TABLE tableB ADD INDEX idx_id(id);
小结
总结一下:
- 驱动表 是被优先扫描的表,在提供
JOIN
条件之前被查询。 - 被驱动表依赖驱动表的结果进行匹配查询。
- 驱动表选择影响查询性能,应优先确保驱动表数据量较小、索引使用率高。
- 通过
EXPLAIN
可以检查驱动表和被驱动表的选择,并进行针对性的优化。