Apache Ignite 中 WHERE 子句中的子查询（Subqueries in WHERE Clause）的执行方式

这段内容是关于 Apache Ignite 中 WHERE 子句中的子查询（Subqueries in WHERE Clause）的执行方式 的说明。理解这段内容对于编写高效的 SQL 查询、避免性能瓶颈非常重要。下面我将为你 逐句解释并深入理解这段内容。

🧾 原文翻译 + 解释

原文：

SELECT queries used in INSERT and MERGE statements as well as SELECT queries generated by UPDATE and DELETE operations are distributed and executed in either colocated or non-colocated distributed modes.

翻译：

INSERT 和 MERGE 语句中使用的 SELECT 查询，以及由 UPDATE 和 DELETE 操作生成的 SELECT 查询，都可以在集群中以"共定位（colocated）"或"非共定位（non-colocated）"的分布式模式执行。

理解：

Ignite 是一个分布式内存数据库，SQL 查询可以跨多个节点执行。
对于 UPDATE、DELETE、INSERT INTO SELECT 这类操作，Ignite 会先生成一个 SELECT 查询，用于确定要操作的数据。
这些 SELECT 查询是分布式执行的，可以利用集群的并行处理能力。

原文：

However, if there is a subquery that is executed as part of a WHERE clause, then it can be executed in the colocated mode only.

翻译：

然而，如果子查询是作为 WHERE 子句的一部分执行的，那么它只能在"共定位模式"下执行。

理解：

如果你在 WHERE 条件中使用了子查询（如 IN, EXISTS, NOT EXISTS 等），这个子查询不会被完全分布式执行。
它只能在当前节点本地的数据集上执行，不能跨节点并行执行。

原文示例：

sql 复制代码

DELETE FROM Person WHERE id IN
    (SELECT personId FROM Salary s WHERE s.amount > 2000);

Ignite 内部生成的 SELECT 查询：

sql 复制代码

SELECT _key, _val FROM Person WHERE id IN
    (SELECT personId FROM Salary s WHERE s.amount > 2000);

关键点：

外层查询（SELECT _key, _val FROM Person WHERE id IN (...)）是分布式执行的，会跨节点运行。
子查询部分 （SELECT personId FROM Salary s WHERE s.amount > 2000）是本地执行的，只在当前节点上运行。

🧠 为什么会这样限制？

这是因为：

子查询作为 WHERE 条件的一部分，它的结果需要用于外层查询的过滤。
如果子查询也跨节点执行，会导致复杂的分布式事务和数据一致性问题。
为了简化逻辑和保证一致性，Ignite 限制子查询只能在本地节点执行。

📌 举个例子说明执行过程

假设你有以下两个表：

Person 表：分布在多个节点上，按 id 分片。
Salary 表：也分布在多个节点上，按 personId 分片。

执行如下语句：

sql 复制代码

DELETE FROM Person WHERE id IN
    (SELECT personId FROM Salary WHERE amount > 2000);

Ignite 的执行流程如下：

子查询部分 SELECT personId FROM Salary WHERE amount > 2000：
- 只在当前节点的 Salary 数据上执行。
- 只能查出当前节点上的符合条件的 personId。
- 不会跨节点查询 Salary 表的所有数据。
外层 DELETE 查询：
- 会根据子查询返回的 personId 列表，在所有节点上查找并删除 Person 表中对应的记录。
- 外层查询是分布式执行的。

⚠️ 潜在问题

1. 数据不完整：

如果 Salary 表分布在多个节点上，而子查询只在当前节点执行，那么你只能获取当前节点上的 personId，无法获取集群中其他节点上的数据。

这会导致：

删除的数据不完整
查询结果不准确

2. 性能瓶颈：

子查询只在本地执行，不能利用集群资源，可能成为性能瓶颈。

✅ 如何优化这种查询？

方法一：先执行子查询，获取完整 ID 列表（应用层处理）

sql 复制代码

-- Step 1: 获取所有符合条件的 personId
SELECT personId FROM Salary WHERE amount > 2000;

-- Step 2: 在应用层拿到 personId 列表后，构造 IN 查询
DELETE FROM Person WHERE id IN (1, 2, 3, ...);

方法二：使用 JOIN 替代子查询（推荐）

sql 复制代码

DELETE FROM Person p
WHERE EXISTS (
    SELECT 1
    FROM Salary s
    WHERE s.personId = p.id AND s.amount > 2000
);

或者使用 JOIN（如果支持）：

sql 复制代码

DELETE /*+ JOIN(p, s) */ FROM Person p
JOIN Salary s ON p.id = s.personId
WHERE s.amount > 2000;

⚠️ 注意：Ignite 的 DELETE 和 UPDATE 对 JOIN 支持有限，需要确认版本是否支持。

📌 总结

特性	说明
子查询在 WHERE 中	只能在本地节点执行
外层查询	可以在整个集群分布式执行
性能影响	子查询不能跨节点执行，可能影响性能和结果准确性
建议	使用应用层处理或 JOIN 替代子查询，避免只查本地数据