从“规则引擎”到“语义层 + DSL + 程序化SQL生成”：数据分析系统架构演进的理论思考

在自然语言数据分析系统的构建过程中，研发团队通常会在三种核心架构路线之间进行权衡与选择：纯规则引擎、大模型直接生成SQL、语义层+DSL+程序化SQL生成。多数项目初期会优先选择纯规则引擎，源于其可控性优势；后续易被大模型直接生成SQL的智能化特性吸引；而当系统进入深度落地阶段，会逐步转向第三种架构，核心原因在于其更契合工程实践中的平衡需求。本文从理论层面系统对比三类架构的核心特征与优劣，深入剖析"语义层+DSL+程序化SQL生成"架构成为更稳妥中间路线的内在逻辑。

一、问题本质：自然语言查询的核心矛盾

自然语言数据分析的核心痛点，在于用户输入的业务化表达与数据库可执行逻辑之间的脱节。用户的查询需求本质上是基于业务场景的语义表达，包含业务对象、核心指标、时间范围、分析意图四个核心维度；而数据库的执行逻辑仅关注数据存储层面的技术实现，包括数据表选择、字段提取、关联逻辑、聚合方式及条件约束等。

因此，自然语言数据分析系统的核心矛盾，是如何将用户的业务语义表达稳定、准确地转化为数据库可执行的逻辑指令。不同架构的本质差异，在于解决这一转化问题的实现路径与核心载体不同，进而形成了不同的优势与局限。

二、三种典型架构的核心特征

（一）纯规则引擎

纯规则引擎架构的核心逻辑，是通过人工预设的固定规则，完成自然语言到数据库执行逻辑的转化。其核心特征是将所有决策逻辑通过人工编码写死，通过关键词识别、模式匹配、条件判断及模板拼接等方式，实现语义解析与指令生成。整个系统的行为完全由预设规则决定，无自主决策与灵活适配能力，所有语义解析与指令生成的逻辑均依赖人工定义。

（二）大模型直接生成SQL

大模型直接生成SQL架构的核心逻辑，是将语义理解与指令生成两大核心任务完全交由大模型完成。其核心特征是向大模型输入数据存储的元信息（如表结构、字段说明等）及少量示例，用户输入自然语言查询后，由大模型直接输出对应的SQL指令，再由程序执行SQL并返回结果。该架构中，大模型同时承担语义理解与技术实现决策的双重职责，缺乏独立的约束与校验环节。

（三）语义层 + DSL + 程序化SQL生成

该架构的核心逻辑是将语义理解与指令生成任务拆分，实现"分工协作、风险可控"。其核心特征是构建独立的语义层，统一管理数据域、指标、维度、关联关系等业务知识；通过大模型完成自然语言到领域特定语言（DSL）的转化，DSL仅聚焦业务语义的描述，不涉及具体的技术实现；再由程序基于语义层的配置，将DSL转化为标准化的SQL指令。整个过程中，大模型仅负责语义理解，程序负责技术落地与风险控制，语义层则承担业务知识沉淀与统一映射的作用。

三、纯规则引擎：优势与核心代价

（一）核心优势

稳定性与确定性：系统行为完全由预设规则决定，语义解析与指令生成的结果可预测、可复现，不存在随机波动，能够满足对结果一致性要求较高的场景需求。
可审计性与可追溯性：当系统出现错误时，可直接定位到具体的规则漏洞（如关键词识别错误、模板拼接错误等），便于问题排查、责任界定与规则优化，契合高审计要求的场景。
无模型相关成本与风险：不依赖大模型，无需承担模型调用成本、模型迭代成本，也不存在模型波动、输出失控等不确定性风险，系统运维成本相对可控。

（二）核心代价

规则爆炸问题：自然语言的表达具有多样性、灵活性，随着查询需求的复杂化，需要不断新增规则以覆盖更多表达场景，导致规则数量呈指数级增长，形成庞大的条件逻辑树，增加系统复杂度。
维护成本持续攀升：规则系统的扩展性较差，新增规则时易与原有规则冲突、覆盖原有规则或破坏规则优先级，导致后期规则优化与调整的难度增加，甚至出现"不敢动、不能动"的困境。
长尾表达适配能力弱：对未预设规则的语义表达、同义表达、变异表达的适配能力极差，一旦用户偏离预设的表达范式，系统便会出现解析失败，无法满足多样化的查询需求。

四、大模型直接生成SQL：优势与核心风险

（一）核心优势

自然语言理解能力突出：相较于规则引擎，大模型具备强大的语义理解能力，能够高效处理同义表达、省略表达、组合表达、模糊表达等多种语言场景，无需用户适配系统的表达范式，交互体验更优。
初期开发效率高：无需构建复杂的规则体系，仅需准备数据元信息与少量示例，即可快速实现原型验证，能够快速响应初期的需求验证与demo展示需求。
长尾需求覆盖能力强：能够通过自身的语义理解能力，适配未预设场景的查询需求，有效解决规则引擎对长尾表达的适配难题，覆盖更广泛的查询场景。

（二）核心风险

稳定性不足：大模型需同时决定数据查询的所有技术细节，任何一处决策偏差都会导致SQL指令错误、查询结果错误，甚至出现语义偏差；部分SQL指令语法正确但业务逻辑错误，此类问题隐蔽性强，难以排查。
幻觉生成风险：当数据存储结构复杂或元信息不完整时，大模型易出现编造字段、编造数据表、错误使用聚合方式、误解业务关联关系等问题，导致查询结果失真，无法满足业务决策需求。
安全与权限管控困难：大模型直接生成SQL的模式下，难以对其查询范围、查询方式进行有效约束，存在查询违规数据、执行高成本查询、拼接不合规SQL等风险，权限管控与安全防护的难度极大。

五、语义层 + DSL + 程序化SQL：平衡之道的核心逻辑

语义层+DSL+程序化SQL生成架构的核心价值，在于通过任务拆分与分工协作，解决纯规则引擎的灵活性不足与大模型直接生成SQL的风险不可控问题，实现语义理解、风险控制与工程落地的平衡，更契合企业级系统的工业化落地需求。

其核心逻辑是将"自然语言→SQL"的单一转化过程，拆分为"自然语言→DSL"与"DSL→SQL"两个独立环节：大模型仅负责语义理解，将自然语言转化为描述业务语义的DSL，不涉及任何技术实现细节；程序基于语义层的统一配置，将DSL转化为标准化的SQL指令，实现技术落地与风险控制；语义层则承担业务知识沉淀、数据关联管理、字段映射等核心作用，成为连接业务语义与技术实现的桥梁。

六、相对纯规则引擎的核心优势

灵活性显著提升：由大模型负责自然语言理解，无需人工预设大量同义规则，能够自适应自然语言的多样化表达，大幅降低对用户表达范式的约束，提升系统的交互灵活性。
扩展性更优：新增业务场景、新增指标或数据域时，无需修改核心代码或新增大量规则，仅需补充语义层的配置信息（如新增指标注册、完善数据关联关系等），即可实现系统能力的扩展，降低维护成本。
复杂需求处理能力更强：对于多重过滤、多层语义关联、多维度对比等复杂查询需求，无需构建复杂的规则逻辑，通过大模型解析语义生成DSL，再由程序标准化落地，能够更高效、更准确地处理复杂业务需求。

七、相对大模型直接生成SQL的核心优势

可控性更强：大模型仅能输出符合DSL规范的业务语义描述，无法直接访问数据存储细节，所有数据表、字段的访问均由语义层统一管控，有效避免违规查询与幻觉生成风险。
稳定性更高：SQL指令的生成逻辑由程序固定实现，数据表关联、字段映射、聚合方式等技术细节均由语义层统一配置，不受大模型波动影响，大幅提升查询结果的稳定性与一致性。
校验成本更低：可在DSL层构建强约束机制，对指标合法性、维度合法性、时间逻辑合法性等进行前置校验，相较于直接校验SQL指令，校验逻辑更简洁、更高效，能够提前规避大部分错误。
可维护性更优：将业务知识沉淀到语义层的配置文件中，形成可复用、可迭代的业务资产，无需依赖特定的大模型提示词，便于系统的长期迭代与知识沉淀，降低后期维护成本。

八、该架构的核心代价

该架构并非完美无缺，其核心代价集中在初期设计与业务建模环节，主要体现在三个方面：

初期设计复杂度高：相较于纯规则引擎与大模型直接生成SQL，该架构需要额外设计语义层、DSL规范、SQL生成器、语义校验规则等核心模块，初期研发投入更高，设计难度更大。
对语义建模能力要求高：系统的核心竞争力不在于代码实现，而在于业务语义的建模能力，需要研发人员深入理解业务逻辑与数据结构，明确数据域、指标、维度的边界与关联关系，建模的合理性直接决定系统的可用性。
仍需应对模型误解风险：大模型虽不直接生成SQL，但仍可能出现自然语言到DSL的转化错误，因此需要构建完善的DSL校验机制、默认值策略与异常处理逻辑，规避模型误解带来的风险。

九、工程视角下的架构选择逻辑

三类架构的选择，核心取决于业务场景的需求特征、风险承受能力与长期演进规划，不存在绝对最优的架构，仅存在最适配的选择。

纯规则引擎的适配场景：查询需求类型固定、需求变化频率低、业务表达高度标准化、审计要求极高，且无需覆盖长尾查询场景，适合用于固定报表查询、流程化查询等核心场景。
大模型直接生成SQL的适配场景：需快速完成原型验证、数据存储结构简单、查询风险可接受，核心目标是证明需求的可行性，适合用于demo展示、临时查询等非核心场景，不适合直接作为生产环境的核心架构。
语义层+DSL的适配场景：存在多数据域、业务术语与物理数据结构差异显著、查询需求复杂多样，既需要满足语义理解的灵活性，又需要控制查询风险，且系统需长期演进，这也是大多数企业级自然语言数据分析系统的最优选择。

十、长期演进的最优策略：分层组合而非二选一

成熟的自然语言数据分析系统，并非单一架构的应用，而是三类架构的分层组合，实现优势互补、风险可控。合理的工程策略是：将高频、标准化的查询需求，沉淀为规则或模板，保障查询效率与稳定性；将长尾、多样化的自然语言理解需求，交由大模型处理，提升系统的灵活性与覆盖能力；将数据访问、SQL生成等技术实现环节，交由程序统一管控，保障系统的稳定性与安全性；将业务知识、字段映射、数据关联等核心信息，沉淀到语义层，形成可迭代的业务资产。

这种组合策略中，规则引擎退化为系统的"稳定内核"，保障核心需求的稳定落地；大模型成为系统的"理解入口"，负责处理灵活多样的自然语言需求；语义层则成为两者之间的"安全纽带"，实现业务语义与技术实现的精准映射，兼顾灵活性与可控性。

十一、长期演进的核心价值：可演进性与可控性的平衡

系统长期演进的核心痛点，不在于初期的开发效率，而在于后期的可维护性、可扩展性与风险可控性------避免系统结构混乱、能力扩展困难、错误难以排查、改动成本过高。

语义层+DSL+程序化SQL生成架构的核心价值，在于赋予系统强大的可演进性：语义理解能力可通过升级大模型持续提升；业务知识可通过语义层配置持续扩展；SQL生成逻辑可独立优化，不影响其他模块；数据域可逐步增加，系统能力随业务需求同步成长，且全程保持风险可控。这种可演进性，使其区别于"demo级架构"，成为能够长期适配业务发展、持续迭代优化的企业级架构。

十二、结语

从理论层面来看，三类架构的核心差异，本质上是语义理解、可控性、可维护性三者之间的权衡：纯规则引擎追求极致的可控性与可维护性，但牺牲了灵活性；大模型直接生成SQL追求极致的灵活性，但牺牲了可控性与稳定性；语义层+DSL+程序化SQL生成架构，则在三者之间找到了最优平衡点，既保留了大模型的语义理解能力，又延续了规则引擎的可控性与可维护性。

对于企业级自然语言数据分析系统而言，落地的核心并非追求"最智能"，而是在满足业务需求的前提下，实现语义理解能力、系统可控性、长期可维护性的平衡。正是这种平衡，使得"语义层+DSL+程序化SQL生成"架构，成为越来越多企业级系统的最终选择------它或许不是初期最省事的路径，但却是能够支撑系统长期演进、实现业务价值落地的最优路径。