数据集推荐 06 | 首款 NL2GeoSQL 的测试基准和数据集来了！

专题介绍

当我们对 AI4SQL/AI4DB/DB4AI 类产品进行研究时，我们发现 SQL 领域应用能力的提升很大程度上依赖于高质量的数据集。

还需要在此基础上进行数据合成，生成针对特定问题的训练集和评估集。为了帮助更多开发者快速获取资源，我们将近年来公开的 Text2SQL/NL2SQL 数据集进行了整理清单，持续分享给大家！

本期为系列文章的第六期，将介绍 大模型在地理空间查询 SQL 生成 和 提高 NL2SQL 精准度 方面的两款数据集：GeoSQL-Eval 与 DeKeyNLU。

GeoSQL-Eval / GeoSQL-Bench

GeoSQL-Eval 是首个面向 PostGIS 环境的端到端自动化评估框架，旨在衡量大型语言模型在 地理空间 数据库查询生成（GeoSQL）方面的性能。

该研究还包括发布 GeoSQL-Bench 基准测试数据集，其中包含 14,178 个实例、340 个 PostGIS 函数和 82 个专题数据库。

论文意图

本文主要针对现有大型语言模型在生成 PostGIS 空间查询（GeoSQL）方面的性能评估难题，探讨如何系统地衡量这些模型的性能，因为目前 缺乏专门的评估基准和框架。传统的 NL2SQL 基准测试无法涵盖空间数据类型、函数和坐标系等复杂元素，导致在实际应用场景中出现函数错觉和参数误用等错误。

为了解决这一问题，论文提出了：

GeoSQL-Bench 基准测试
GeoSQL-Eval 评估框架

这些框架旨在为 NL2GeoSQL 任务建立一个标准化、多层次且可执行的评估系统，支持模型能力诊断和优化，并降低不同领域用户使用空间数据库的门槛。

数据集分析

GeoSQL-Bench 数据集 采用多源结构化方法构建，涵盖三种类型的任务：

多项选择题和判断题（2380 道），基于 PostGIS 3.5 官方手册，测试函数功能、参数顺序、返回类型以及是否符合规范；
语法级 SQL 生成题（3744 道），源自手册示例，包含显式提示和欠规范提示，验证模型生成可执行查询的能力；
表结构检索题（2155 道），基于使用联合国全球地理信息管理 (UN GGIM) 主题和 ISO 19115 分类构建的包含 82 个真实场景的空间数据库，要求模型使用表结构生成复杂查询。

所有任务均在 GPT-4o 的辅助下生成，并经过领域专家的三重审核，以确保准确性、多样性和真实性。

小结

本研究使用 GeoSQL-Eval 框架 系统地评估了六大类共 24 个主流模型。

实验表明，推理增强型模型（例如 GPT-5 和 o4-mini）在复杂的空间查询和多轮查询生成方面表现出色，尤其是在几何任务中展现出显著的准确率优势。通用非推理模型（例如 Claude3.7-Sonnet）在执行效率和语法正确性方面表现更佳。然而，函数调用和参数匹配错误仍然是核心瓶颈，约占 70%，而表结构检索任务由于多表连接逻辑的复杂性而面临最大挑战。

这项工作建立了首个针对 NL2GeoSQL 任务的标准化评估系统，为自然语言与空间数据库的交互提供了关键的基准和优化方向。

DeKeyNLU

DeKeyNLU 通过三层人工交叉验证，实现了任务分解和关键词提取的联合细粒度标注。在此基础上，DeKeySQL 框架创新性地将一个专门的理解模块深度集成到 RAG（结果生成）过程中，建立了一种 "优先考虑精确语义解析 " 的新范式，显著提高了复杂查询 SQL 生成的准确性和领域适应性。

论文意图

本文旨在解决当前 RAG（检索增强生成）和 CoT（思维链）技术在 NL2SQL（自然语言 SQL 生成）任务中遇到的主要瓶颈：

通用大模型在任务分解和关键词提取方面的准确性不足。

现有的数据集在任务分解方面往往过于碎片化，且缺乏特定领域的关键词标注。为了解决这些问题，作者提出了 DeKeyNLU 数据集 和 DeKeySQL 流程（包含三个模块：用户问题理解、实体检索和生成）。通过对模型进行微调以优化问题理解阶段，最终生成的 SQL 语句的准确性得到了提升。

数据集分析

DeKeyNLU 数据集 包含 1500 个高质量标注的问答对，数据来源于 BIRD 基准数据集，涵盖金融、教育等多个领域的真实数据库场景，数据集按 7:2:1 的比例划分为训练集、验证集和测试集。

数据合成采用 "LLM 预标注 + 人工润色" 的混合工作流程：

第一步：使用 GPT-4o 自动生成每个问题的初步任务分解（主任务/子任务）和关键词提取（对象/实现）；
第二步：三位专家标注员进行三轮交叉验证和修订确保标注质量。

小结

论文通过引入 DeKeyNLU 数据集 和 DeKeySQL 框架 ，证明了 针对性的任务分解和关键词提取训练能够有效提升 NL2SQL 的性能。

实验结果表明，利用 DeKeyNLU 对 "用户问题理解" 模块进行微调后，模型在 BIRD 开发集上的准确率从 62.31% 提升至 69.10%，在 Spider 开发集上的准确率从 84.2% 提升至 88.7%。

在 NL2SQL 流程中，实体检索被认为是影响整体准确率的最关键环节，其次是用户问题理解和修正机制。这些发现凸显了以数据集为中心的方法和精心设计的流程对于提升 NL2SQL 系统能力的重要价值，并为用户实现直观、准确的数据交互铺平了道路。