KES内核优化实战：标量子查询消除赋能SQL性能大幅跃升

一、业务性能痛点：标量子查询的执行缺陷与行式瓶颈

[1.1 业务常用标量子查询场景](#1.1 业务常用标量子查询场景)

[1.2 性能问题根源：逐行迭代的低效执行机制](#1.2 性能问题根源：逐行迭代的低效执行机制)

[1.3 优化核心难点：SQL语义等价适配难题](#1.3 优化核心难点：SQL语义等价适配难题)

二、传统数据库标量子查询的执行短板

三、金仓KES标量子查询消除的全链路优化方案

[3.1 安全校验：语义等价性精准判定机制](#3.1 安全校验：语义等价性精准判定机制)

[3.2 逻辑改写：子查询转外连接批量执行](#3.2 逻辑改写：子查询转外连接批量执行)

改写核心思路

SQL改写效果展示

[3.3 智能合并：同类子查询复用优化](#3.3 智能合并：同类子查询复用优化)

合并优化案例演示

[3.4 内核价值：适配向量化引擎与CPU并行能力](#3.4 内核价值：适配向量化引擎与CPU并行能力)

四、性能实测：优化效果量化验证

[4.1 测试环境与测试语句](#4.1 测试环境与测试语句)

[4.2 优化前后性能数据对比](#4.2 优化前后性能数据对比)

五、优化总结与落地价值

日常复杂业务系统开发中，不少开发者为了让SQL逻辑更清晰、编写更省事，常会在SELECT字段中使用标量子查询，用来单值回填补充业务数据。这种写法贴合开发习惯、语义易懂，但随着线上数据持续累积，会逐步暴露出严重的性能缺陷。金仓数据库KES在V009R002C014版本中，上线了标量子查询消除核心优化功能，彻底解决了传统行式执行的低效问题，同时适配当下主流的向量化执行引擎与CPU的SIMD指令集，让这类SQL的性能实现了数量级的突破。

一、业务性能痛点：标量子查询的执行缺陷与行式瓶颈

1.1 业务常用标量子查询场景

在实际的项目开发中，我们经常会依靠多个标量子查询，对主表查询结果做二次聚合统计，这类常规业务SQL的典型写法如下：

sql 复制代码

SELECT 
    s11.id1,
    -- 标量子查询1：关联聚合求和
    (SELECT sum(s22.id1) FROM s22 WHERE s22.id3 = s11.id3),
    -- 标量子查询2：同结构不同输出的聚合求和
    (SELECT sum(s22.id2) FROM s22 WHERE s22.id3 = s11.id3)
FROM s11;

从业务逻辑层面来看，这段SQL完全合规、可读性强，维护起来也比较轻松，但在实际数据库执行环节，隐藏着足以拖慢业务的致命性能隐患。

1.2 性能问题根源：逐行迭代的低效执行机制

传统数据库的优化器在解析这类SQL时，普遍采用低效的行式处理（Row-by-Row）执行策略，这也是卡顿问题的核心根源：

优化器会遍历主表s11的所有数据，针对每一条单独的行数据，都会触发一次完整的子查询执行逻辑；
倘若主表存在1万条业务数据，对应的子查询就会重复执行一万次，每次都要对s22子表做全表扫描；
多条结构高度相似的子查询会分开独立执行，不会复用资源，直接造成大量无效算力的重复消耗。

这种逐行触发、逐条执行的运行模式，会让查询耗时随主表数据量增加呈线性甚至指数级增长，是业内公认的低效SQL执行模式。

1.3 优化核心难点：SQL语义等价适配难题

标量子查询消除的优化核心，是把嵌套子查询逻辑改写为表连接逻辑，但这项优化有严格前提，必须保证优化前后SQL语义和查询结果完全一致，不能出现数据失真，核心风险点主要集中在两类场景：

返回值非标量风险：原生标量子查询若异常返回多行数据，数据库会直接报错；但强行改写为连接查询后，数据库不会抛出异常，会静默返回错误数据，造成前后结果不匹配。
聚合函数空值差异：无匹配数据时，COUNT函数固定返回0，而SUM、MAX、MIN、AVG这类聚合函数会返回NULL；直接外连接改写会将0替换为NULL，直接破坏统计结果的准确性。

由此可见，标量子查询消除不能无脑全局生效，必须搭建一套严谨的等价性判定机制，只针对语义安全、无歧义的子查询执行优化操作。

二、传统数据库标量子查询的执行短板

传统数据库优化器处理标量子查询的流程十分固定，分为三个核心步骤，全程没有解决重复执行这一核心性能问题：

先完整执行外层主查询，一次性获取主表的所有结果数据行；
遍历每一条主查询结果，逐行单独执行对应的子查询逻辑；
当SQL存在多个子查询时，全部独立执行，不会做任何合并复用优化。

这套机制最大的缺陷非常明确：所有子查询访问的数据源、筛选条件基本一致，却需要反复循环执行，造成海量算力浪费，完全无法适配大规模数据的业务查询场景。

三、金仓KES标量子查询消除的全链路优化方案

针对上述行业痛点与技术短板，金仓KES V009R002C014版本自研了一套完整的优化机制，整体分为「等价性判定→外连接改写→相似子查询合并」三个阶段，兼顾数据语义安全与查询执行效率，同时深度适配现代数据库向量化执行架构。

3.1 安全校验：语义等价性精准判定机制

KES优化器的核心思路不是尽可能多的消除子查询，而是优先保障数据准确性，只做安全可控的优化，核心校验规则如下：

逐层拆解子查询语法结构，核验语义等价基础条件，过滤掉存在多行返回、逻辑模糊的风险子查询；
针对包含聚集计算、窗口函数、UNION合并的复杂子查询，增设专属约束判定，规避改写后的数据异常风险；
单独适配COUNT函数的特殊空值逻辑，补齐不同聚合函数的返回值差异，确保优化前后结果完全统一。

只有顺利通过全部校验流程的标量子查询，才会进入后续优化环节，从内核源头杜绝语义错乱、数据偏差等问题。

3.2 逻辑改写：子查询转外连接批量执行

完成等价性校验后，KES会对原有SQL进行重构，将字段中的标量子查询转化为独立内联视图，通过左外连接关联主表数据。这一改动的核心价值，是把低效的逐行Row-by-Row执行模式，转化为单次扫描、批量计算的集合式处理模式。

改写核心思路

精准提取查询字段中所有符合优化条件的标量子查询；
剔除SELECT列表中的原始子查询，将其重构为独立的内联视图；
通过左外连接将内联视图与主表关联，替换原有嵌套查询逻辑；
生成全新的高效执行计划，兼容索引优化、连接优化等后续常规优化策略。

SQL改写效果展示

原始低效 SQL：

sql 复制代码

SELECT (SELECT sum(id) FROM t2 WHERE t1.id = t2.id) FROM t1;

KES 改写后 SQL（集合式处理）：

sql 复制代码

SELECT COALESCE(v.sum_id, 0) 
FROM t1
LEFT JOIN (SELECT id, sum(id) AS sum_id FROM t2 GROUP BY id) v
ON t1.id = v.id;

SQL改写完成后，子表t2只需完成一次全表扫描即可，无需跟随主表每行数据重复扫描，彻底根除了重复执行带来的性能开销。

3.3 智能合并：同类子查询复用优化

针对业务中十分常见的多子查询场景，也就是多条子查询结构一致、仅统计输出字段不同的情况，KES支持智能合并优化，将多个零散子查询整合为单一内联视图，一次性完成所有聚合计算，规避重复扫描和重复计算的资源损耗。

合并优化案例演示

原始 SQL（多相似子查询）：

sql 复制代码

SELECT 
    t1.id,
    (SELECT SUM(amount) FROM t2 WHERE t2.ref_id = t1.id AND t2.type = 'A') AS sum_a,
    (SELECT SUM(amount) FROM t2 WHERE t2.ref_id = t1.id AND t2.type = 'B') AS sum_b,
    (SELECT COUNT(*) FROM t2 WHERE t2.ref_id = t1.id) AS total_cnt
FROM t1;

合并后 SQL：

sql 复制代码

SELECT 
    t1.id,
    COALESCE(v.sum_a, 0) AS sum_a,
    COALESCE(v.sum_b, 0) AS sum_b,
    COALESCE(v.total_cnt, 0) AS total_cnt
FROM t1
LEFT JOIN (
    SELECT 
        ref_id,
        SUM(CASE WHEN type='A' THEN amount END) AS sum_a,
        SUM(CASE WHEN type='B' THEN amount END) AS sum_b,
        COUNT(*) AS total_cnt
    FROM t2 
    GROUP BY ref_id
) v ON t1.id = v.ref_id;

经过合并优化后，数据库仅需单次扫描、一次分组子表t2，就能批量输出多项聚合结果，最大限度提升了数据库资源的整体利用率。

3.4 内核价值：适配向量化引擎与CPU并行能力

2026年主流的数据库内核，都已全面落地向量化执行引擎。其核心设计思路是摒弃传统单行处理逻辑，以Batch批次为单位批量处理数据，充分调用现代CPU的SIMD单指令多数据特性，通过单条指令并行运算多组数据，大幅提升CPU的实际运行效率。

KES的标量子查询消除，不只是简单的SQL逻辑改写，更是适配现代化向量化执行引擎的关键前置优化动作，内核价值极高：

原始行式执行的向量化障碍：未优化的标量子查询属于行驱动嵌套循环逻辑，每解析一行数据就要触发一次子查询，频繁的上下文切换会打断向量化执行流水线，无法调用SIMD并行指令，CPU缓存利用率极低，硬件算力严重闲置。
消除后的批量友好形态 ：改写成LEFT JOIN + 内联视图结构后，整体执行流程变为批量扫描、批量聚合、批量连接，完美适配向量化引擎的Batch批量处理模式：
- 主表扫描一次性批量输出上千行数据；
- 内联视图批量接收数据完成聚合，依托SIMD指令实现并行计算；
- 通过批量哈希匹配完成连接，大幅减少函数调用与上下文切换的额外开销。

这项内核优化，真正让传统低效的业务SQL适配了现代CPU硬件架构，打破了传统数据库优化的性能上限，是KES内核现代化升级的重要落地体现。

四、性能实测：优化效果量化验证

4.1 测试环境与测试语句

测试数据表：t1、t2各存放10000条测试数据
本次测试所用SQL语句如下：

sql 复制代码

-- 创建测试表
create table t1(id numeric(10,1)); 
create table t2(id numeric(10,1)); 
-- 插入10000行数据
insert into t1 values(generate_series(1,10000)); 
insert into t2 values(generate_series(1,10000));
-- 待测试SQL
select (select sum(id) from t2 where t1.id=t2.id) from t1;

4.2 优化前后性能数据对比

|--------|-----------------------|-------|----------|
| 执行方式 | 执行逻辑 | 耗时 | 性能提升 |
| 子查询未消除 | 逐行扫描t2，共扫描 10000 次 | 32 秒 | 基准 |
| 子查询消除后 | t2仅扫描 1 次，批量聚合 + 连接 | 24 毫秒 | 约 1333 倍 |

从实测数据可以直观看出，开启标量子查询消除优化后，SQL性能实现了千倍级飞跃，彻底解决了大数据量场景下的查询卡顿、执行超时等问题。

五、优化总结与落地价值

标量子查询是业务开发中使用率极高的SQL写法，但传统数据库的行式执行机制存在天然性能短板。金仓KES V009R002C014版本推出的标量子查询消除优化，通过等价性判定、外连接改写、相似子查询合并的三段式架构，在保障数据语义完全一致的前提下，将低效的逐行执行模式升级为高效的集合批量处理模式。

更关键的是，这项优化完成了SQL执行逻辑的现代化适配，完美兼容主流向量化执行引擎与CPU的SIMD指令集，有效减少上下文切换和缓存失效问题，充分释放硬件算力。作为KES内核现代化的核心实践，该优化可实现千倍级性能提升，能够高效支撑HTAP混合负载、复杂业务报表等高频复杂查询场景。