🏆 阿里云大数据AI平台登顶 NL2SQL 权威榜单 Spider 2.0
背景
在数字化时代,企业数据呈爆炸式增长,但大多数业务人员因不懂SQL语言而无法直接获取数据洞察。近年来,随着AI技术的飞速发展,基于大语言模型强大的自然语言理解和代码生成能力的 NL2SQL 技术应运而生------它能将"查询上个月销售额最高的产品"这样的自然语言,自动转换为复杂的SQL查询语句。
然而,现实企业环境中的数据库结构复杂、SQL方言多样、查询逻辑深度嵌套,单纯靠大模型能力的 NL2SQL 方法往往力不从心。
权威认证:Spider 2.0榜单第一
面对这些挑战,阿里云 PAI 与 DataWorks 团队共同研发了 NL2SQL Agent,该 Agent 使用 PAI团队首创的****面向真实业务场景的端到端 NL2SQL 框架 DB-Surfer,能够在自然语言转换为SQL场景中具有优越表现。在被誉为"最接近真实企业场景"的 Spider 2.0-Snow ( spider2-sql.github.io/)评测中,以59.78%的执行准确率荣获榜单第一,超越了多个顶尖竞争对手,展现了阿里云大数据AI平台在 Agentic NL2SQL 技术领域的领先实力。这一结果也表明,NL2SQL 技术在复杂真实场景中的落地正逐步成为可能。
来源:Spider 2.0 官网
Spider 2.0 是面向 企业级复杂场景 的文本到 SQL(Text-to-SQL)评估基准,旨在突破传统评测对简单单表查询的局限性。其基于 632 个真实企业数据库工作流问题 构建,覆盖金融、医疗、电商等 18 个垂直领域,要求模型在多表关联、长上下文理解、复杂逻辑推理等维度展现工业化级能力,被誉为"最接近真实企业场景"的Text-to-SQL评测**。**
DB-Surfer Agent:NL2SQL 技术框架新范式
DB-Surfer,一个面向复杂真实场景的 NL2SQL 框架,采用"总---分---总"的协同架构,专为超大规模、高复杂度的数据库查询任务设计。系统整体分为三个核心阶段:查询意图预处理、代码智能体执行 和 多源路径后处理,在任务规划的引导下,实现对复杂数据库环境的高效、可控探索,最终生成用户所需的SQL查询语句。

DB-Surfer的核心突破可归纳为以下三点:
在公开基准上取得了最先进的性能。 DB-Surfer在Spider 2.0-Snow基准^[1]^上取得了59.78%的执行准确率,截至2025年8月27日,位列该榜单第一,证明了该方法的有效性,能在真实、复杂的场景下解决用户数据库查询问题。
DB-Surfer通过联合的任务规划与元数据链接,为Agent提供了明确的执行指引。这种"先规划、后执行"的机制显著提升了Agent探索的效率与目的性,证明了有指导的Agent是解决复杂NL2SQL任务的一条可行技术路线。
为构建具备持续进化能力的NL2SQL系统提供了可扩展范式。**DB-Surfer的模块化设计与数据飞轮知识沉淀机制,为系统的长期优化奠定了基础。其分阶段架构便于未来集成多样化的外部工具。这为NL2SQL技术从单一的查询生成工具,向更具挑战性的、能在开放场景下泛化的数据分析助手演进,提供了一个可迁移的系统化解决方案。
为了进一步验证 DB-Surfer 的有效性,我们将其与一系列当前最先进的方法在 Spider 2.0-Snow 数据集上进行了全面对比。这些基线方法代表了 NL2SQL 领域的主流技术路径,涵盖了从静态提示到动态交互式智能体的不同范式。其中包括基于 ReAct 框架的基线方法 Spider-Agent、当前榜单排名靠前的闭源 Agent 方法 WindAgent 与 ByteBrain-Agent、基于硬编排工作流和自洽性的 ReFoRCE 框架,以及提示工程方法的代表工作如 Dail-SQL 。
在与众多基线方法的对比下,DB-Surfer 取得了 59.78% 的执行准确率,达到了该基准上当前的SOTA。这一成绩不仅超越了 WindAgent (59.05%) 等基于商业大模型的 Agent 方法,更显著优于基于固定工作流的 ReFoRCE (37.11%) 和基线智能体方法 Spider-Agent (31.08%)。超过20个百分点的巨大性能优势充分证明,在处理极端复杂的数据库环境时,DB-Surfer 的动态、自适应交互框架远比固化的流程或简单的"思考-行动"循环更为有效。
产品落地:DataWorks Copilot 体验升级
目前,Agentic NL2SQL DB-Surfer技术已深度集成至大数据开发治理平台DataWorks的Copilot , Copilot作为DataWorks平台的智能助手,能够根据上下文快速理解业务需求,帮助开发者通过自然语言高效完成多种代码相关操作及DataWorks产品操作。用户通过在DataWorks界面的顶部导航栏点击 Copilot 图标即可开始体验,点击查看指导手册。
现在,DataWorks Copilot已累计生成并被采纳的代码行数超3200万,覆盖分析师和开发者超60000人,数据开发分析效率平均提升35%。
总结
从登顶 Spider2.0 的技术突破,到 DataWorks Copilot 体验的深度升级,DB-Surfer 的出现与落地不仅是阿里云 PAI 在 NL2SQL 技术领域的一次里程碑式跨越,更标志着DataWorks企业级数据开发交互进入 "智能体驱动" 的全新时代。当复杂 SQL 查询转化为自然语言对话,当数据洞察从 "技术特权" 变为 "业务标配",阿里云大数据AI平台将持续通过技术与场景的双轮驱动,助力每一家企业轻松驾驭数据浪潮。
1\] Lei F, Chen J, Ye Y, et al. Spider 2.0: Evaluating language models on real-world enterprise text-to-sql workflows\[J\]. arXiv preprint arXiv:2411.07763, 2024.