开源界核弹级输出!蚂蚁 Agentar-Scale-SQL 凭 “编排式扩展” 技术,成为 Text-to-SQL 天花板

在数字化时代,数据已成为企业和组织的核心资产,但如何让非技术人员轻松获取数据 insights 一直是行业难题。传统的 SQL 查询要求使用者掌握专业的编程语言知识,这在很大程度上限制了数据的普及应用。而 Text-to-SQL 技术的出现,让用户可以用自然语言提问,系统自动生成对应的 SQL 语句,极大降低了数据访问的门槛。在这一领域,蚂蚁集团推出的 Agentar-Scale-SQL 凭借其卓越的性能和创新的技术方案,成为行业关注的焦点。

一、Agentar-Scale-SQL:Text-to-SQL 领域的佼佼者

Agentar-Scale-SQL 是蚂蚁集团研发的一套先进 Text-to-SQL 解决方案,旨在通过「编排式测试时扩展」技术提升自然语言到 SQL 转换的准确性和效率。从公开信息来看,它不仅在学术研究上取得了突破,更在实际应用中展现出强大的落地能力。

在权威的 BIRD 排行榜上,Agentar-Scale-SQL 以 81.67% 的执行准确率位居榜首,超过了 AskData + GPT-4o(80.88%)、LongData-SQL(77.53%)等知名方案。这一成绩并非偶然,背后是其在技术架构、模型设计和工程实现上的多重创新。

从项目定位来看,Agentar-Scale-SQL 并非单一工具,而是一套完整的技术体系。它包含了用于生成 SQL 的大模型、处理数据库结构的轻量 schema 引擎、离线数据预处理管道等核心组件,同时还延伸出商业化产品「Data Agent」------ 一款面向企业的 ChatBI 工具,让用户能通过自然语言直接与业务数据交互,无需编写任何代码。

二、核心优势:从技术创新到实用价值

Agentar-Scale-SQL 的竞争力体现在多个维度,既有底层技术的突破,也有贴近实际场景的设计考量。

1. 顶尖的执行准确率

在 Text-to-SQL 领域,执行准确率(EX)是衡量系统性能的核心指标,它代表生成的 SQL 语句能否正确执行并返回符合预期的结果。Agentar-Scale-SQL 在 BIRD 测试集上的 EX 达到 81.67%,这意味着在绝大多数场景下,用户的自然语言提问都能被准确转化为可执行的 SQL。

对比其他方案,这一成绩的优势明显。例如,基于 GPT-4o 的 AskData 方案准确率为 80.88%,而 LongData-SQL 等开源方案则在 77% 左右。更高的准确率意味着更低的人工校对成本,让用户可以更放心地依赖系统生成的结果。

2. 完整的技术生态

Agentar-Scale-SQL 构建了从模型到工具的完整生态。2025 年 11 月,蚂蚁集团发布了 Agentar-Scale-SQL-Generation-32B 大模型,分别在 Hugging Face 和 ModelScope 平台开源,供开发者使用。该模型专注于 SQL 生成任务,经过大规模数据训练,能理解复杂的自然语言问题并生成对应的 SQL 语句。

同时,项目还开源了「轻量 schema 引擎」和「离线数据预处理管道」。轻量 schema 引擎用于提取和简化数据库结构信息,帮助模型更好地理解表、列之间的关系;离线数据预处理管道则能对原始数据进行清洗、转换和索引构建,为后续的 SQL 生成提供高质量输入。

3. 贴近实际场景的设计

与一些仅关注学术指标的方案不同,Agentar-Scale-SQL 充分考虑了工业界的需求。例如,它支持 SQLite 等主流数据库方言,适配企业常用的数据库环境;提供了完整的部署和使用流程,包括环境配置、数据准备、模型推理等步骤,降低了开发者的使用门槛。

此外,项目还推出了商业化产品 Data Agent,将技术能力封装为易用的工具。用户只需在网页上输入自然语言问题,如"上个月销售额最高的三个产品是什么",系统就能自动生成 SQL 并返回结果,整个过程无需专业知识,极大提升了数据查询的效率。

三、技术解析:如何让自然语言精准转化为 SQL?

Agentar-Scale-SQL 的高准确率源于其创新的技术架构和精细的工程实现。从技术细节来看,它主要通过以下几个环节实现自然语言到 SQL 的高效转换。

1. 数据预处理:为模型提供高质量输入

数据预处理是提升 SQL 生成准确率的基础。Agentar-Scale-SQL 设计了多步骤的预处理流程,确保模型能获得清晰的数据库结构和相关信息。

首先是「轻量 schema 生成」。通过运行 python -m ScaleSQL.workflows.schema_generation --evaluation_type test 命令,系统会分析数据库中的表、列、数据类型、主键、外键等信息,生成简洁的 schema 描述。例如,它会为每个列添加示例值(如"性别列的示例值:男、女")和描述(如"用户 ID:唯一标识用户的编号"),帮助模型理解字段含义。

其次是「向量数据库构建」。项目使用 SentenceTransformer 模型对训练集中的 SQL 骨架(去除具体值后的抽象结构)和数据库单元格值进行编码,存储到 Chroma 向量数据库中。当处理新问题时,系统能快速检索相似的历史案例,为当前 SQL 生成提供参考。

最后是「BM25 索引构建」。通过运行 bash ddl_schema.sh 脚本,系统会对数据库中的文本内容(如产品名称、类别等)建立 BM25 索引,用于快速匹配自然语言中的实体(如"2023 年""北京")与数据库中的具体值,提升条件过滤的准确性。

2. 模型架构:分层处理复杂问题

Agentar-Scale-SQL 的核心是其分层的模型架构,通过多个模块协同处理自然语言到 SQL 的转换过程。

  • 关键词提取模块 :该模块使用大模型(如 Gemini-Flash)从用户问题中提取数据库实体(如"销售额""2024 年")和问题骨架(如"查询 [时间] 的 [指标] 最大值")。骨架生成时会将具体值替换为占位符(如 <时间> <指标>),保留问题的逻辑结构,为后续 SQL 生成提供指导。

  • SQL 生成模块:基于提取的关键词和骨架,该模块调用多个不同配置的大模型(如 Gemini、GPT-5)生成多个 SQL 候选。例如,有的模型设置较高的温度参数(1.8)以生成更多样的结果,有的则设置较低温度(0.5)以保证稳定性,通过多模型协作提升结果的覆盖性。

  • SQL 修正与选择模块:生成的候选 SQL 会经过修正(如语法检查、逻辑验证)和筛选。系统会模拟执行 SQL,检查是否存在语法错误或逻辑问题,并根据执行结果的合理性选择最优方案。这一过程类似于"多人解题后投票",进一步提升结果的可靠性。

3. 工程优化:提升效率与可扩展性

为了让技术方案能在实际场景中落地,Agentar-Scale-SQL 在工程实现上做了诸多优化。

例如,它使用 vLLM 进行推理加速,通过高效的内存管理和批处理技术,提升大模型的响应速度。在环境配置上,项目提供了清晰的步骤:使用 Conda 创建虚拟环境、安装 PyTorch 等依赖、下载预训练模型,即使是新手也能快速搭建运行环境。

此外,项目采用模块化设计,各组件(如 schema 生成、向量检索、模型推理)之间通过配置文件解耦,开发者可以根据需求替换其中的模块(如改用其他嵌入模型或向量数据库),提升了系统的可扩展性。

四、使用指南:从零开始体验 Agentar-Scale-SQL

对于开发者来说,体验和部署 Agentar-Scale-SQL 的过程并不复杂,只需按照以下步骤操作,即可快速搭建起一套 Text-to-SQL 系统。

1. 环境准备

首先需要创建一个独立的 Python 环境,避免依赖冲突。推荐使用 Conda 工具:

bash 复制代码
conda create -n ScaleSQL python=3.10
conda activate ScaleSQL

接着安装 PyTorch(需适配 CUDA 12.1,以支持 GPU 加速):

bash 复制代码
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu121

然后安装项目依赖和 vLLM 推理引擎:

bash 复制代码
pip install -r requirements.txt
pip install https://github.com/vllm-project/vllm/releases/download/v0.8.5.post1/vllm-0.8.5.post1+cu121-cp38-abi3-manylinux1_x86_64.whl

最后下载嵌入模型(用于向量生成):

bash 复制代码
modelscope download --model sentence-transformers/all-MiniLM-L6-v2 --local_dir ./ScaleSQL/model/all-MiniLM-L6-v2

2. 数据配置

修改配置文件 ScaleSQL/workflows/config/pipeline_config.yaml,指定数据集路径和列含义文件路径(列含义文件可从 TA-SQL 项目获取,用于补充字段描述):

yaml 复制代码
dataset_folder: /path/to/your/dataset
column_meaning_path: /path/to/column_meaning.json

其中,dataset_folder 需包含数据库文件(如 SQLite 格式)和表结构信息,column_meaning.json 则存储各字段的详细描述(如"order_date:订单创建日期,格式为 YYYY-MM-DD")。

3. 预处理执行

完成环境和数据配置后,执行预处理步骤:

生成轻量 schema:

bash 复制代码
python -m ScaleSQL.workflows.schema_generation --evaluation_type test

执行后会生成 bird_test_light_schema.json,包含简化后的数据库结构信息。

处理训练集示例并写入向量数据库:

bash 复制代码
ANONYMIZED_TELEMETRY=False python -m ScaleSQL.workflows.train_skeleton_process

该步骤会将训练集中的 SQL 骨架编码后存入 Chroma 数据库,用于后续相似案例检索。

处理数据库单元格值并写入向量数据库:

bash 复制代码
ANONYMIZED_TELEMETRY=False python -m ScaleSQL.workflows.database_cell_process --evaluation_type test

构建 BM25 索引(需 Java 环境支持):

bash 复制代码
bash ddl_schema.sh

完成后,系统会生成 bird_test_ddl_schema.json,包含用于文本检索的索引信息。

4. 运行与测试

预处理完成后,即可启动系统进行测试。通过调用相关 API 或脚本,输入自然语言问题(如"查询 2024 年第三季度每个地区的销售总额"),系统会返回生成的 SQL 语句及执行结果。

对于开发者,项目提供了详细的代码注释和模块化接口,可以根据需求进行二次开发,例如集成到自有数据平台或调整模型参数以适配特定场景。

五、成果与影响:从学术突破到产业价值

Agentar-Scale-SQL 的推出,不仅在学术领域推动了 Text-to-SQL 技术的发展,也为产业界提供了一套可落地的解决方案。

在学术方面,项目团队于 2025 年 9 月在 arXiv 上发表了论文《Agentar-Scale-SQL: Advancing Text-to-SQL through Orchestrated Test-Time Scaling》,详细阐述了其技术方案。论文中提出的"编排式测试时扩展"思路,通过多模型协作、多阶段处理的方式提升 SQL 生成准确率,为相关研究提供了新的方向。

在产业应用上,商业化产品 Data Agent 已在多个场景落地。例如,零售企业的市场人员可以通过自然语言查询不同区域的销售数据,无需等待数据分析师支持;金融机构的风控人员能快速检索客户的交易记录,提升风险识别效率。这种"人人可用数据"的模式,极大释放了数据的价值。

此外,项目的开源策略也促进了技术普及。Agentar-Scale-SQL-Generation-32B 模型、轻量 schema 引擎等组件的开源,让中小企业和研究机构可以低成本使用先进技术,推动了 Text-to-SQL 领域的整体发展。

六、未来展望:持续进化的 Text-to-SQL 技术

根据项目的发布路线图,Agentar-Scale-SQL 团队计划在未来推出更多功能。例如,即将开源的 Agentar-Scale-SQL-Selection-32B 模型将专注于 SQL 候选的筛选,进一步提升结果的准确性;同时,针对闭源模型的 SQL 候选生成代码、基于微调模型的生成代码也将逐步开放,丰富开发者的选择。

从技术趋势来看,Text-to-SQL 正朝着更智能、更易用的方向发展。未来,Agentar-Scale-SQL 可能会融合多模态输入(如表格、图表)、支持更复杂的逻辑推理(如嵌套查询、窗口函数),并进一步优化响应速度,让自然语言与数据库的对话更接近人类交互的体验。

对于企业而言,随着数据量的爆炸式增长,高效的数据访问工具将成为核心竞争力之一。Agentar-Scale-SQL 及其背后的技术理念,无疑为这一需求提供了可行的解决方案,推动数据驱动决策从口号走向实践。

结语

Agentar-Scale-SQL 的出现,不仅是技术上的一次突破,更代表了"让数据触手可及"的理念。从学术研究到产业应用,从模型开源到产品落地,它构建了一条完整的技术链路,让 Text-to-SQL 从实验室走向了真实世界。

对于开发者,它提供了一套可复用的技术框架,降低了构建高性能 Text-to-SQL 系统的门槛;对于企业,它让数据查询变得简单高效,释放了非技术人员的数据分析能力;对于整个行业,它推动了自然语言处理与数据库技术的融合,为智能化数据交互开辟了新的可能。

随着技术的不断迭代,我们有理由相信,未来人与数据的对话将更加自然、高效,而 Agentar-Scale-SQL 无疑会在这一进程中扮演重要角色。

相关推荐
北邮刘老师2 小时前
【智能体互联协议解析】ACPs/AIP为什么还在用“落后”的“中心化”架构?
网络·人工智能·架构·大模型·智能体·智能体互联网
studytosky2 小时前
深度学习理论与实战:反向传播、参数初始化与优化算法全解析
人工智能·python·深度学习·算法·分类·matplotlib
lisw052 小时前
人工智能伦理与科技向善有何区别与联系?
人工智能·机器学习
橙露2 小时前
二通道数显控制器:工业测控的“双管家”,视觉检测中的隐形助力
人工智能·计算机视觉·视觉检测
彬匠科技BinJiang_tech2 小时前
跨境电商物流选择指南:从痛点分析到智能决策
人工智能·erp·tms
用户8599681677692 小时前
基于大模型LLM的开发与编程教程
人工智能
谷隐凡二2 小时前
etcd在Kubernetes中的作用简单介绍
数据库·kubernetes·etcd
阿杆2 小时前
如何在 Spring Boot 中接入 Amazon ElastiCache
java·数据库·redis
qq_343247032 小时前
单机版认证kafka
数据库·分布式·kafka