MAC-SQL 算法一 - 技术栈

算法1是MAC-SQL框架的核心执行流程，核心逻辑是"按需简化数据库→拆解问题生成SQL→执行验证并修正错误"，全程通过三个智能体协作完成，步骤清晰易懂：

一、算法核心目标

输入自然语言问题、数据库和相关知识，输出能正确执行的SQL查询，解决大数据库和复杂问题下的Text-to-SQL生成难题。

二、算法详细步骤（对应原文步骤1-16）

判断是否需要简化数据库：先检查数据库规模（比如 schema token 数是否超阈值），如果需要，调用 Selector 智能体。
数据库简化（Selector 工作）：Selector 筛选出与问题相关的最小子数据库（核心表和列），去掉无关信息，避免干扰和上下文超限。
生成数据库描述：将简化后的子数据库转化为模型能理解的描述格式（包含表、列、关联关系等）。
拆解问题+生成SQL（Decomposer 工作）：Decomposer 把复杂问题拆成多个简单子问题，按思维链推理生成每个子问题的 SQL，最终汇总得到初步的目标 SQL（取最后一个子 SQL 作为初始结果）。
初始化重试计数器：设置最大重试次数（避免无限循环），计数器初始为 0。
循环验证与修正（Refiner 工作） ：只要计数器没到最大次数，就重复以下操作：
- 执行初步 SQL 并分析结果：调用外部工具执行 SQL，判断是否执行成功（无语法错误、结果有效）。
- 执行成功直接返回：如果 SQL 能正确执行且结果符合预期，直接输出该 SQL 作为最终结果。
- 执行失败则修正：如果有错误（比如语法错、表列不存在），调用 Refiner 智能体，根据错误信息和问题、数据库描述，修正 SQL 得到新版本。
- 计数器加 1：每次修正后计数器加 1，直到达到最大重试次数。
返回最终 SQL：无论是否成功修正，达到最大重试次数后，输出当前修正后的 SQL。

三、关键说明（帮你理解核心逻辑）

三个智能体按需协作：Selector 只在数据库过大时激活，Refiner 只在 SQL 执行出错时激活，不做无用功。
核心优势：通过"简化数据库→拆解问题→修正错误"三步，分别解决"大数据库干扰""复杂问题不会推理""SQL 生成有错误"三个核心痛点。
流程闭环：从生成 SQL 到验证、修正，形成闭环，大幅提升 SQL 执行准确率。

结尾交付物提议

要不要我帮你整理一份算法1的可视化流程图+步骤对应智能体作用对照表，更直观地呈现每个环节的逻辑和分工？