阿里云大数据AI平台登顶 NL2SQL 权威榜单 Spider 2.0

背景

在数字化时代,企业数据呈爆炸式增长,但大多数业务人员因不懂SQL语言而无法直接获取数据洞察。近年来,随着AI技术的飞速发展,基于大语言模型强大的自然语言理解和代码生成能力的 NL2SQL 技术应运而生------它能将"查询上个月销售额最高的产品"这样的自然语言,自动转换为复杂的SQL查询语句。

然而,现实企业环境中的数据库结构复杂、SQL方言多样、查询逻辑深度嵌套,单纯靠大模型能力的 NL2SQL 方法往往力不从心。

权威认证:Spider 2.0榜单第一

面对这些挑战,阿里云 PAI 与 DataWorks 团队共同研发了 NL2SQL Agent,该 Agent 使用 PAI团队首创的面向真实业务场景的端到端 NL2SQL 框架 DB-Surfer,能够在自然语言转换为SQL场景中具有优越表现。在被誉为"最接近真实企业场景"的 Spider 2.0-Snow (Spider 2.0)评测中,以59.78%的执行准确率荣获榜单第一,超越了多个顶尖竞争对手,展现了阿里云大数据AI平台在 Agentic NL2SQL 技术领域的领先实力。这一结果也表明,NL2SQL 技术在复杂真实场景中的落地正逐步成为可能。

来源:Spider 2.0 官网

Spider 2.0 是面向 企业级复杂场景 的文本到 SQL(Text-to-SQL)评估基准,旨在突破传统评测对简单单表查询的局限性。其基于 632 个真实企业数据库工作流问题 构建,覆盖金融、医疗、电商等 18 个垂直领域,要求模型在多表关联、长上下文理解、复杂逻辑推理等维度展现工业化级能力,被誉为"最接近真实企业场景"的Text-to-SQL评测。

DB-Surfer Agent:NL2SQL 技术框架新范式

DB-Surfer,一个面向复杂真实场景的 NL2SQL 框架,采用"总---分---总"的协同架构,专为超大规模、高复杂度的数据库查询任务设计。系统整体分为三个核心阶段:查询意图预处理、代码智能体执行 和 多源路径后处理,在任务规划的引导下,实现对复杂数据库环境的高效、可控探索,最终生成用户所需的SQL查询语句。

DB-Surfer的核心突破可归纳为以下三点:

在公开基准上取得了最先进的性能。 DB-Surfer在Spider 2.0-Snow基准[1]上取得了59.78%的执行准确率,截至2025年8月27日,位列该榜单第一,证明了该方法的有效性,能在真实、复杂的场景下解决用户数据库查询问题。

**DB-Surfer通过联合的任务规划与元数据链接,为Agent提供了明确的执行指引。**这种"先规划、后执行"的机制显著提升了Agent探索的效率与目的性,证明了有指导的Agent是解决复杂NL2SQL任务的一条可行技术路线。

**为构建具备持续进化能力的NL2SQL系统提供了可扩展范式。**DB-Surfer的模块化设计与数据飞轮知识沉淀机制,为系统的长期优化奠定了基础。其分阶段架构便于未来集成多样化的外部工具。这为NL2SQL技术从单一的查询生成工具,向更具挑战性的、能在开放场景下泛化的数据分析助手演进,提供了一个可迁移的系统化解决方案。

为了进一步验证 DB-Surfer 的有效性,我们将其与一系列当前最先进的方法在 Spider 2.0-Snow 数据集上进行了全面对比。这些基线方法代表了 NL2SQL 领域的主流技术路径,涵盖了从静态提示到动态交互式智能体的不同范式。其中包括基于 ReAct 框架的基线方法 Spider-Agent、当前榜单排名靠前的闭源 Agent 方法 WindAgent 与 ByteBrain-Agent、基于硬编排工作流和自洽性的 ReFoRCE 框架,以及提示工程方法的代表工作如 Dail-SQL 。

**在与众多基线方法的对比下,DB-Surfer 取得了 59.78% 的执行准确率,达到了该基准上当前的SOTA。这一成绩不仅超越了 WindAgent (59.05%) 等基于商业大模型的 Agent 方法,更显著优于基于固定工作流的 ReFoRCE (37.11%) 和基线智能体方法 Spider-Agent (31.08%)。**超过20个百分点的巨大性能优势充分证明,在处理极端复杂的数据库环境时,DB-Surfer 的动态、自适应交互框架远比固化的流程或简单的"思考-行动"循环更为有效。

产品落地:DataWorks Copilot 体验升级

目前,Agentic NL2SQL DB-Surfer技术已深度集成至大数据开发治理平台DataWorks的Copilot, Copilot作为DataWorks平台的智能助手,能够根据上下文快速理解业务需求,帮助开发者通过自然语言高效完成多种代码相关操作及DataWorks产品操作。用户通过在DataWorks界面的顶部导航栏点击 Copilot 图标即可开始体验,点击查看指导手册

现在,DataWorks Copilot已累计生成并被采纳的代码行数超3200万,覆盖分析师和开发者超60000人,数据开发分析效率平均提升35%。

DataWorks Copilot - Agent 模式演示

总结

从登顶 Spider2.0 的技术突破,到 DataWorks Copilot 体验的深度升级,DB-Surfer 的出现与落地不仅是阿里云 PAI 在 NL2SQL 技术领域的一次里程碑式跨越,更标志着DataWorks企业级数据开发交互进入 "智能体驱动" 的全新时代。当复杂 SQL 查询转化为自然语言对话,当数据洞察从 "技术特权" 变为 "业务标配",阿里云大数据AI平台将持续通过技术与场景的双轮驱动,助力每一家企业轻松驾驭数据浪潮。

1\] Lei F, Chen J, Ye Y, et al. Spider 2.0: Evaluating language models on real-world enterprise text-to-sql workflows\[J\]. arXiv preprint arXiv:2411.07763, 2024.

相关推荐
阿杰学AI几秒前
AI核心知识57——大语言模型之MoE(简洁且通俗易懂版)
人工智能·ai·语言模型·aigc·ai-native·moe·混合专家模型
珠海西格电力4 分钟前
零碳园区边缘计算节点规划:数字底座的硬件部署与能耗控制方案
运维·人工智能·物联网·能源·边缘计算
臼犀8 分钟前
孩子,那不是说明书,那是祈祷文
人工智能·程序员·markdown
黑客思维者9 分钟前
《关于深入实施 “人工智能 +“ 行动的意见》深度解读
人工智能
Sui_Network10 分钟前
Mysten Labs 与不丹王国政府的创新与技术部携手探索离线区块链
大数据·人工智能·web3·去中心化·区块链
互联科技报12 分钟前
GEO优化工具、AI搜索引擎优化软件平台实测报告:四大平台深度体验与选型指南
大数据·人工智能·搜索引擎
山东小木15 分钟前
AI智能问数(ChatBI)开发框架&解决方案&相关产品
人工智能·chatbi·智能问数·jboltai·javaai·ai问数·ai生图表
驱动探索者19 分钟前
[缩略语大全]之[数据中心]篇
arm开发·阿里云
free-elcmacom21 分钟前
机器学习高阶教程<5>当机器学习遇上运筹学:破解商业决策的“终极难题”
人工智能·python·机器学习
一念一花一世界24 分钟前
Arbess从基础到实践(25) - 集成GitLab+阿里云OSS实现Java项目自动化构建并将制品上传Aliyun OSS
java·阿里云·gitlab·cicd·arbess