数据集推荐 06 | 首款 NL2GeoSQL 的测试基准和数据集来了!

专题介绍

当我们对 AI4SQL/AI4DB/DB4AI 类产品进行研究时,我们发现 SQL 领域应用能力的提升很大程度上依赖于高质量的数据集。

还需要在此基础上进行数据合成,生成针对特定问题的训练集和评估集。为了帮助更多开发者快速获取资源,我们将近年来公开的 Text2SQL/NL2SQL 数据集进行了整理清单,持续分享给大家!

本期为系列文章的第六期,将介绍 大模型在地理空间查询 SQL 生成提高 NL2SQL 精准度 方面的两款数据集:GeoSQL-EvalDeKeyNLU

GeoSQL-Eval / GeoSQL-Bench

GeoSQL-Eval 是首个面向 PostGIS 环境的端到端自动化评估框架,旨在衡量大型语言模型在 地理空间 数据库查询生成(GeoSQL)方面的性能。

该研究还包括发布 GeoSQL-Bench 基准测试数据集,其中包含 14,178 个实例、340 个 PostGIS 函数和 82 个专题数据库。

论文意图

本文主要针对现有大型语言模型在生成 PostGIS 空间查询(GeoSQL)方面的性能评估难题,探讨如何系统地衡量这些模型的性能,因为目前 缺乏专门的评估基准和框架。传统的 NL2SQL 基准测试无法涵盖空间数据类型、函数和坐标系等复杂元素,导致在实际应用场景中出现函数错觉和参数误用等错误。

为了解决这一问题,论文提出了:

  • GeoSQL-Bench 基准测试
  • GeoSQL-Eval 评估框架

这些框架旨在为 NL2GeoSQL 任务建立一个标准化、多层次且可执行的评估系统,支持模型能力诊断和优化,并降低不同领域用户使用空间数据库的门槛。

数据集分析

GeoSQL-Bench 数据集 采用多源结构化方法构建,涵盖三种类型的任务:

  1. 多项选择题和判断题(2380 道),基于 PostGIS 3.5 官方手册,测试函数功能、参数顺序、返回类型以及是否符合规范;
  2. 语法级 SQL 生成题(3744 道),源自手册示例,包含显式提示和欠规范提示,验证模型生成可执行查询的能力;
  3. 表结构检索题(2155 道),基于使用联合国全球地理信息管理 (UN GGIM) 主题和 ISO 19115 分类构建的包含 82 个真实场景的空间数据库,要求模型使用表结构生成复杂查询。

所有任务均在 GPT-4o 的辅助下生成,并经过领域专家的三重审核,以确保准确性、多样性和真实性。

小结

本研究使用 GeoSQL-Eval 框架 系统地评估了六大类共 24 个主流模型。

实验表明,推理增强型模型(例如 GPT-5 和 o4-mini)在复杂的空间查询和多轮查询生成方面表现出色,尤其是在几何任务中展现出显著的准确率优势。通用非推理模型(例如 Claude3.7-Sonnet)在执行效率和语法正确性方面表现更佳。然而,函数调用和参数匹配错误仍然是核心瓶颈,约占 70%,而表结构检索任务由于多表连接逻辑的复杂性而面临最大挑战。

这项工作建立了首个针对 NL2GeoSQL 任务的标准化评估系统,为自然语言与空间数据库的交互提供了关键的基准和优化方向。

DeKeyNLU

DeKeyNLU 通过三层人工交叉验证,实现了任务分解和关键词提取的联合细粒度标注。在此基础上,DeKeySQL 框架创新性地将一个专门的理解模块深度集成到 RAG(结果生成)过程中,建立了一种 "优先考虑精确语义解析 " 的新范式,显著提高了复杂查询 SQL 生成的准确性和领域适应性。

论文意图

本文旨在解决当前 RAG(检索增强生成)和 CoT(思维链)技术在 NL2SQL(自然语言 SQL 生成)任务中遇到的主要瓶颈:

通用大模型在任务分解和关键词提取方面的准确性不足。

现有的数据集在任务分解方面往往过于碎片化,且缺乏特定领域的关键词标注。为了解决这些问题,作者提出了 DeKeyNLU 数据集DeKeySQL 流程(包含三个模块:用户问题理解、实体检索和生成)。通过对模型进行微调以优化问题理解阶段,最终生成的 SQL 语句的准确性得到了提升。

数据集分析

DeKeyNLU 数据集 包含 1500 个高质量标注的问答对,数据来源于 BIRD 基准数据集,涵盖金融、教育等多个领域的真实数据库场景,数据集按 7:2:1 的比例划分为训练集、验证集和测试集。

数据合成采用 "LLM 预标注 + 人工润色" 的混合工作流程:

  • 第一步:使用 GPT-4o 自动生成每个问题的初步任务分解(主任务/子任务)和关键词提取(对象/实现);
  • 第二步:三位专家标注员进行三轮交叉验证和修订确保标注质量。

小结

论文通过引入 DeKeyNLU 数据集DeKeySQL 框架 ,证明了 针对性的任务分解和关键词提取训练能够有效提升 NL2SQL 的性能。

实验结果表明,利用 DeKeyNLU 对 "用户问题理解" 模块进行微调后,模型在 BIRD 开发集上的准确率从 62.31% 提升至 69.10%,在 Spider 开发集上的准确率从 84.2% 提升至 88.7%。

在 NL2SQL 流程中,实体检索被认为是影响整体准确率的最关键环节,其次是用户问题理解和修正机制。这些发现凸显了以数据集为中心的方法和精心设计的流程对于提升 NL2SQL 系统能力的重要价值,并为用户实现直观、准确的数据交互铺平了道路。

相关推荐
九.九6 小时前
ops-transformer:AI 处理器上的高性能 Transformer 算子库
人工智能·深度学习·transformer
春日见6 小时前
拉取与合并:如何让个人分支既包含你昨天的修改,也包含 develop 最新更新
大数据·人工智能·深度学习·elasticsearch·搜索引擎
小高不会迪斯科6 小时前
CMU 15445学习心得(二) 内存管理及数据移动--数据库系统如何玩转内存
数据库·oracle
恋猫de小郭6 小时前
AI 在提高你工作效率的同时,也一直在增加你的疲惫和焦虑
前端·人工智能·ai编程
deephub6 小时前
Agent Lightning:微软开源的框架无关 Agent 训练方案,LangChain/AutoGen 都能用
人工智能·microsoft·langchain·大语言模型·agent·强化学习
e***8906 小时前
MySQL 8.0版本JDBC驱动Jar包
数据库·mysql·jar
l1t6 小时前
在wsl的python 3.14.3容器中使用databend包
开发语言·数据库·python·databend
大模型RAG和Agent技术实践6 小时前
从零构建本地AI合同审查系统:架构设计与流式交互实战(完整源代码)
人工智能·交互·智能合同审核
老邋遢6 小时前
第三章-AI知识扫盲看这一篇就够了
人工智能
互联网江湖6 小时前
Seedance2.0炸场:长短视频们“修坝”十年,不如AI放水一天?
人工智能