🏆 阿里云大数据AI平台登顶 NL2SQL 权威榜单 Spider 2.0

🏆 阿里云大数据AI平台登顶 NL2SQL 权威榜单 Spider 2.0

背景

在数字化时代,企业数据呈爆炸式增长,但大多数业务人员因不懂SQL语言而无法直接获取数据洞察。近年来,随着AI技术的飞速发展,基于大语言模型强大的自然语言理解和代码生成能力的 NL2SQL 技术应运而生------它能将"查询上个月销售额最高的产品"这样的自然语言,自动转换为复杂的SQL查询语句。

然而,现实企业环境中的数据库结构复杂、SQL方言多样、查询逻辑深度嵌套,单纯靠大模型能力的 NL2SQL 方法往往力不从心。

权威认证:Spider 2.0榜单第一

面对这些挑战,阿里云 PAI 与 DataWorks 团队共同研发了 NL2SQL Agent,该 Agent 使用 PAI团队首创的****面向真实业务场景的端到端 NL2SQL 框架 DB-Surfer,能够在自然语言转换为SQL场景中具有优越表现。在被誉为"最接近真实企业场景"的 Spider 2.0-Snow ( spider2-sql.github.io/)评测中,以59.78%的执行准确率荣获榜单第一,超越了多个顶尖竞争对手,展现了阿里云大数据AI平台在 Agentic NL2SQL 技术领域的领先实力。这一结果也表明,NL2SQL 技术在复杂真实场景中的落地正逐步成为可能。

来源:Spider 2.0 官网

Spider 2.0 是面向 企业级复杂场景 的文本到 SQL(Text-to-SQL)评估基准,旨在突破传统评测对简单单表查询的局限性。其基于 632 个真实企业数据库工作流问题 构建,覆盖金融、医疗、电商等 18 个垂直领域,要求模型在多表关联、长上下文理解、复杂逻辑推理等维度展现工业化级能力,被誉为"最接近真实企业场景"的Text-to-SQL评测**。**

DB-Surfer Agent:NL2SQL 技术框架新范式

DB-Surfer,一个面向复杂真实场景的 NL2SQL 框架,采用"总---分---总"的协同架构,专为超大规模、高复杂度的数据库查询任务设计。系统整体分为三个核心阶段:查询意图预处理、代码智能体执行 和 多源路径后处理,在任务规划的引导下,实现对复杂数据库环境的高效、可控探索,最终生成用户所需的SQL查询语句。

DB-Surfer的核心突破可归纳为以下三点:

在公开基准上取得了最先进的性能。 DB-Surfer在Spider 2.0-Snow基准^[1]^上取得了59.78%的执行准确率,截至2025年8月27日,位列该榜单第一,证明了该方法的有效性,能在真实、复杂的场景下解决用户数据库查询问题。

DB-Surfer通过联合的任务规划与元数据链接,为Agent提供了明确的执行指引。这种"先规划、后执行"的机制显著提升了Agent探索的效率与目的性,证明了有指导的Agent是解决复杂NL2SQL任务的一条可行技术路线。

为构建具备持续进化能力的NL2SQL系统提供了可扩展范式。**DB-Surfer的模块化设计与数据飞轮知识沉淀机制,为系统的长期优化奠定了基础。其分阶段架构便于未来集成多样化的外部工具。这为NL2SQL技术从单一的查询生成工具,向更具挑战性的、能在开放场景下泛化的数据分析助手演进,提供了一个可迁移的系统化解决方案。

为了进一步验证 DB-Surfer 的有效性,我们将其与一系列当前最先进的方法在 Spider 2.0-Snow 数据集上进行了全面对比。这些基线方法代表了 NL2SQL 领域的主流技术路径,涵盖了从静态提示到动态交互式智能体的不同范式。其中包括基于 ReAct 框架的基线方法 Spider-Agent、当前榜单排名靠前的闭源 Agent 方法 WindAgent 与 ByteBrain-Agent、基于硬编排工作流和自洽性的 ReFoRCE 框架,以及提示工程方法的代表工作如 Dail-SQL 。

在与众多基线方法的对比下,DB-Surfer 取得了 59.78% 的执行准确率,达到了该基准上当前的SOTA。这一成绩不仅超越了 WindAgent (59.05%) 等基于商业大模型的 Agent 方法,更显著优于基于固定工作流的 ReFoRCE (37.11%) 和基线智能体方法 Spider-Agent (31.08%)。超过20个百分点的巨大性能优势充分证明,在处理极端复杂的数据库环境时,DB-Surfer 的动态、自适应交互框架远比固化的流程或简单的"思考-行动"循环更为有效。

产品落地:DataWorks Copilot 体验升级

目前,Agentic NL2SQL DB-Surfer技术已深度集成至大数据开发治理平台DataWorks的Copilot , Copilot作为DataWorks平台的智能助手,能够根据上下文快速理解业务需求,帮助开发者通过自然语言高效完成多种代码相关操作及DataWorks产品操作。用户通过在DataWorks界面的顶部导航栏点击 Copilot 图标即可开始体验,点击查看指导手册

现在,DataWorks Copilot已累计生成并被采纳的代码行数超3200万,覆盖分析师和开发者超60000人,数据开发分析效率平均提升35%。

总结

从登顶 Spider2.0 的技术突破,到 DataWorks Copilot 体验的深度升级,DB-Surfer 的出现与落地不仅是阿里云 PAI 在 NL2SQL 技术领域的一次里程碑式跨越,更标志着DataWorks企业级数据开发交互进入 "智能体驱动" 的全新时代。当复杂 SQL 查询转化为自然语言对话,当数据洞察从 "技术特权" 变为 "业务标配",阿里云大数据AI平台将持续通过技术与场景的双轮驱动,助力每一家企业轻松驾驭数据浪潮。

1\] Lei F, Chen J, Ye Y, et al. Spider 2.0: Evaluating language models on real-world enterprise text-to-sql workflows\[J\]. arXiv preprint arXiv:2411.07763, 2024.

相关推荐
m***923827 分钟前
【SQL】MySQL中的字符串处理函数:concat 函数拼接字符串,COALESCE函数处理NULL字符串
数据库·sql·mysql
合作小小程序员小小店3 小时前
图书管理系统,基于winform+sql sever,开发语言c#,数据库mysql
开发语言·数据库·sql·microsoft·c#
p***92488 小时前
深入理解与实战SQL IFNULL()函数
数据库·sql·oracle
Y***985112 小时前
DVWA靶场通关——SQL Injection篇
数据库·sql
蒋士峰DBA修行之路12 小时前
实验二十八 SQL PATCH调优
数据库·sql·gaussdb
I***t71613 小时前
一条sql 在MySQL中是如何执行的
数据库·sql·mysql
n***F87517 小时前
修改表字段属性,SQL总结
java·数据库·sql
a***59261 天前
【SQL技术】不同数据库引擎 SQL 优化方案剖析
数据库·sql
喂自己代言1 天前
常见的关系型数据库有哪些?如何安装和使用Postgres?(中英双语版)
sql·postgresql·database
愚戏师1 天前
MySQL SQL 注入
数据库·sql·mysql