MAC-SQL 多智能体协作框架解析

论文

MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL
Bing Wang 1 , Changyu Ren 1 , Jian Yang 1 , Xinnian Liang 1 , Jiaqi Bai 1 , Linzheng Chai 1
Zhao Yan 2 , Qian-Wen Zhang 2 , Di Yin 2 , Xing Sun 2 , Zhoujun Li 1 †

在数据驱动的时代，Text-to-SQL 技术作为自然语言与数据库交互的核心桥梁，极大降低了数据库使用门槛。然而面对超大数据库和复杂多步推理问题时，传统基于大语言模型（LLM）的方法往往性能锐减，且普遍忽视了外部工具调用与模型协作的关键价值。今天我们将深入拆解一项刷新 Text-to-SQL 性能纪录的创新方案 ------MAC-SQL 多智能体协作框架，带大家理解其核心设计、实现逻辑与实战效果。

一、Text-to-SQL 的核心挑战与行业痛点

Text-to-SQL 的目标是将自然语言问题自动转化为结构化的 SQL 查询，让非技术人员也能轻松操作数据库。但在实际应用中，两大痛点长期制约着技术落地：

复杂场景适应性差：面对包含数十张表、数百列的 "超大数据库" 时，LLM 容易被无关信息干扰，生成包含冗余 schema 的 SQL；而像 "查询 SAT 优秀率高于平均值的特许学校名称" 这类需要多步推理的问题，单一模型往往难以拆解逻辑链条。
模型孤立无援：现有方法大多依赖单一 LLM 独立完成任务，既不善于利用外部工具（如 SQL 执行器）进行结果验证，也缺乏多模块协作机制，导致 SQL 语法错误、逻辑偏差等问题无法有效修正。

传统解决方案要么通过优化提示词（Prompt）提升单模型性能，要么采用固定模板限制 SQL 生成范围，但都未能从根本上解决上述问题。MAC-SQL 的创新之处在于，它引入了多智能体协作模式，让不同功能的智能体各司其职、协同配合，彻底重构了 Text-to-SQL 的执行链路。

二、MAC-SQL 框架核心设计：三大智能体协同作战

MAC-SQL 的核心思想是将复杂的 Text-to-SQL 任务拆解为三个子任务，分别由 Selector（选择器）、Decomposer（分解器）和 Refiner（优化器）三个智能体完成，通过协作实现高效、精准的 SQL 生成。

1. Selector：数据库 "瘦身师"------ 剔除冗余信息

Selector 的核心目标是为复杂问题筛选最小必要的数据库 schema，避免无关表和列干扰后续 SQL 生成。它的工作逻辑如下：

激活条件：当数据库 schema 的 token 长度超过模型最大上下文长度的 80%（如 GPT-4-32k 对应 25k token）时自动激活；
筛选规则：根据用户问题和外部知识，保留相关表和列，每个表至少保留 6 个核心列，确保信息完整性；
核心价值：减少 Prompt 长度，降低 API 调用成本，同时避免 LLM 因信息过载生成无关 SQL。

例如面对包含 account、client、loan、district 四张表的数据库，当用户询问 "在平均薪资最低的分行开户的最年轻客户性别" 时，Selector 会筛选出 client（全保留）、account（全保留）、district（保留 district_id、A11 等核心列），并丢弃完全无关的 loan 表。

2. Decomposer：推理 "导航员"------ 拆解复杂问题

Decomposer 是 MAC-SQL 的核心智能体，负责将复杂多步推理问题拆解为简单子问题，通过少样本思维链（Chain-of-Thought）推理逐步生成 SQL。其核心设计包括：

拆解策略：动态判断问题难度，简单问题直接生成 SQL，复杂问题拆解为 1-5 个递进式子问题（如先求平均 SAT 优秀率，再筛选高于该值的学校）；
生成规则：严格遵循 SQL 最佳实践，如只选择必要列、不包含冗余表、JOIN 操作优先于聚合函数等；
少样本学习：通过 2 个示例提示词（2-shot）让 LLM 快速理解拆解逻辑，提升子问题和子 SQL 的生成质量。

以 "查询 SAT 优秀率高于平均值的特许学校名称" 为例，Decomposer 会将其拆解为两个子问题：

子问题 1：计算特许学校的平均 SAT 优秀率（SAT_Excellence_Rate = NumGE1500 / NumTstTakr）；
子问题 2：筛选出优秀率高于该平均值的特许学校名称。

每个子问题对应生成一个子 SQL，最终通过嵌套查询组合为完整 SQL，大幅降低了复杂逻辑的推理难度。

3. Refiner：SQL"纠错官"------ 利用工具优化结果

Refiner 是 MAC-SQL 的 "质检环节"，它借助外部 SQL 执行工具（如 SQLite）验证生成 SQL 的正确性，并根据错误反馈修正问题。其工作流程如下：

错误检测：执行生成的 SQL，捕获语法错误（如括号不匹配）、逻辑错误（如表连接错误）、结果为空等问题；
精准修正：结合用户问题、数据库 schema 和错误信息，针对性修正 SQL，最多支持 3 轮迭代优化；
约束保障：修正过程中严格遵循 SQL 生成约束，确保不引入新的冗余或错误。

例如当 SQL 因多括号导致语法错误时，Refiner 会自动识别并删除多余括号；当 SQL 因表连接条件错误导致结果为空时，它会重新检查外键关系并修正 JOIN 逻辑。

4. 协作流程：从输入到输出的完整链路

MAC-SQL 的三大智能体通过固定流程协作，确保任务高效执行：

输入：用户问题（Q）、数据库（db）、外部知识（kg）；
数据库瘦身：Selector 根据条件筛选最小 schema；
问题拆解：Decomposer 生成子问题和初始 SQL；
迭代优化：Refiner 调用 SQL 执行工具验证 SQL，修正错误；
输出：最终正确的 SQL。

这一流程既保证了每一步任务的专业性，又通过协作弥补了单一智能体的能力局限。

三、SQL-Llama：开源模型的逆袭 ------ 比肩 GPT-4 的低成本方案

MAC-SQL 不仅设计了创新框架，还针对开源社区需求，基于 Code Llama 7B 微调了 SQL-Llama 模型，让普通开发者也能低成本部署高性能 Text-to-SQL 系统。

1. SQL-Llama 训练细节

训练数据：基于 BIRD 和 Spider 数据集构建 10,000 条高质量指令数据，涵盖数据库筛选、问题拆解、SQL 生成、错误修正三大任务；
训练目标：通过多任务监督微调（Supervised Fine-tuning），让模型同时掌握三大智能体的核心能力；
模型优势：仅 7B 参数量，却能实现与 GPT-4（175B 参数量）接近的性能，部署成本大幅降低。

2. 性能表现：开源模型的突破

在 BIRD 数据集开发集上，SQL-Llama 的执行准确率达到 43.94%，仅比原生 GPT-4 的 46.35% 低 2.41 个百分点；而当 MAC-SQL 框架搭配 SQL-Llama 时，执行准确率进一步提升至 43.94%，远超其他开源模型。对于预算有限、无法调用 GPT-4 API 的场景，SQL-Llama 提供了极具性价比的替代方案。

四、实战性能：刷新 SOTA 纪录的硬核数据

MAC-SQL 在业界权威的 BIRD 和 Spider 数据集上均取得了突破性成绩，充分验证了其有效性：

1. BIRD 数据集（真实大规模数据库）

MAC-SQL+GPT-4 在测试集上的执行准确率（EX）达到 59.59%，刷新该数据集 SOTA 纪录；
相比第二名 DAIL-SQL+GPT-4（57.41%），提升 2.18 个百分点；
在开发集上，搭配 Oracle Schema（真实子数据库）时，执行准确率更是高达 70.28%。

2. Spider 数据集（跨域复杂查询）

MAC-SQL+GPT-4 在开发集上的执行准确率达到 86.75%，位列同类方法第一；
即使使用 SQL-Llama，开发集执行准确率也达到 76.25%，展现出极强的跨域适应性。

3. 消融实验：各组件的不可或缺性

通过移除不同智能体的对比实验发现：

移除 Selector：整体准确率下降 2.11%，复杂问题准确率下降 5.14%；
移除 Decomposer：整体准确率下降 3.85%，中等难度问题准确率下降 3.87%；
移除 Refiner：整体准确率下降 4.63%，语法错误率提升 30%。

这表明三大智能体各司其职、缺一不可，协作模式是 MAC-SQL 性能领先的关键。

五、应用场景与落地建议

MAC-SQL 的设计理念使其适用于多种实际场景：

企业级数据库查询：面对包含数百张表的大型业务数据库，Selector 能快速筛选核心信息，Decomposer 拆解复杂业务查询（如 "统计近三个月各区域复购用户的平均消费金额"）；
低代码平台：集成到低代码工具中，让非技术人员通过自然语言生成 SQL，Refiner 保障查询正确性；
智能客服系统：处理用户关于业务数据的查询需求（如 "我的订单退款进度"），自动生成 SQL 查询数据库并返回结果。

落地建议

优先使用 GPT-4 作为核心模型：追求极致性能时，MAC-SQL+GPT-4 是最优选择，尤其适用于关键业务场景；
开源方案首选 SQL-Llama：预算有限或需要私有化部署时，SQL-Llama+MAC-SQL 能以低成本实现接近 GPT-4 的效果；
优化提示词工程：根据具体数据库类型调整三大智能体的提示词，例如针对金融数据库增加字段释义说明。

六、总结与未来展望

MAC-SQL 通过多智能体协作模式，成功解决了传统 Text-to-SQL 方法在复杂场景下性能不足、缺乏工具协作的痛点，其核心创新点可概括为：

多智能体分工协作：将复杂任务拆解为专业化子任务，提升执行效率和准确性；
工具化集成：引入 SQL 执行器作为外部工具，实现 "生成 - 验证 - 修正" 的闭环；
开源模型赋能：SQL-Llama 让高性能 Text-to-SQL 系统的部署成本大幅降低。

未来，MAC-SQL 还有进一步优化的空间：

优化智能体提示词，提升各组件的协作效率；
基于更大参数量的开源模型（如 Code Llama 34B）微调 SQL-Llama，进一步缩小与 GPT-4 的性能差距；
扩展支持更多数据库类型（如 MySQL、PostgreSQL）和更复杂的查询场景（如时序查询、权限控制）。

其开源代码在 GitHub 发布（https://github.com/wbbeyourself/MAC-SQL）