论文概述
学习这篇Text2SQL+LLM的benchmark论文前,可以先学习一下基础的Text2SQL知识。
可以参考GitHub项目:github.com/eosphoros-a...,这个项目收集了Text2SQL+LLM领域的相关简介、综述、经典Text2SQL方法、基础大模型、微调方法、数据集、实践项目等等,持续更新中!
(如果觉得对您有帮助的话,可以star、fork,有问题、建议也可以提issue、pr,欢迎围观)
基本信息
- 英文标题:Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation
- 中文标题:基于LLM的Text2SQL:基准评估
- 发表时间:2023年8月29日 v1版,2023年11月20日v4版
- 作者单位:阿里巴巴
- 论文链接:arxiv.org/abs/2308.15...
- 代码链接:github.com/BeachWang/D...
摘要
- 大型语言模型(LLM)用于Text2SQL任务已成为一种新范式。 然而,缺乏系统的基线benchmark阻碍了基于 LLM 的Text2SQL方案设计。
- 为了应对这一挑战,在本文中,论文首先进行了系统且广泛的研究,与现有提示工程方法prompt engineering methods 比较,包括问题表示question representation 、例子选择example selection 和例子组织example organization,并通过这些实验结果,论文阐述了它们的优点和缺点。
- 基于这些发现,论文提出了一种新的综合名为DAIL-SQL 的解决方案,刷新Spider排行榜-执行准确率(EX)达到 86.6%,树立了新标杆。
- 为了探索开源LLM的潜力,论文进行了调查,并进一步使用有监督微调SFT提升其性能。论文的探索突出了开源LLM 在Text2SQL方面的潜力,以及监督微调的优点和缺点。 此外,为了实现一个高效且经济的基于LLM的Text2SQL解决方案,论文强调prompt engineering的token效率并进行比较之前的研究。
86.6现在已经不是spider第一了,不过仍然非常强大,也开源了代码,目前(2024-0104)是MiniSeek的91.2(没有开源代码),可以参考Awesome-Text2SQL开源项目中的榜单汇总
结果
问题表示question representation
有5个类别:
- Basic Prompt
- Text Representation Prompt (多了一些文字描述)
- OpenAI Demostration Prompt
- Code Representation Prompt
- Alpaca SFT Prompt
图 1:zero-shot场景下Spider-dev 上不同问题表示的结果。
- 没有一致的最好question representation,也就是说不同的模型,可能question representation表现最好的不是同一种
- 具体的数值可以看表5
- Vicuna-33B:OpenAI Demostration Prompt表现最好
- GPT-4:Basic Prompt 表现最好
- GPT-3.5-TURBO:OpenAI Demostration Prompt表现最好
- TEXT-DAVINCI-003:Code Representation Prompt表现最好
论文做了消融实验,对prompt中的问题表示去掉外键信息,比如图2和表6。
图2 Spider-dev 上外键信息的消融实验。 绿色箭头表示增加,红色箭头表示,表示减少。
- 大部分问题表示中增加上foreign key后,EX和EM都是有增加的,除了少数,比如Text Representation Prompt With Foreign Keys 在GPT-4下,结果反而还降低了0.2。
同样的,还有关于是否解释explanation的消融实验,如图3和表7。
- 加上Explanation rule,大部分问题表示结果EX/EM都是上升的,除了OpenAI Demostration Prompt。
上下文学习In-Context Learning(ICL)
这里统一选取问题表示为Code Representation Prompt
Example Selection
example的选择分为了5类:
-
Random 随机选example
-
Question Similarity selection 根据和问题的相似性选择
-
Masked Question Similarity selection 把问题的表名、列名mask,再计算问题的相似性
-
Query Similarity selection 查询的相似性
-
DAIL selection 就是这篇论文的方法
-
Upper Limit
-
这个和DAIL selection类似,只不过计算的是ground truth 的query的相似性 (DAIL selection 是predicted query)
- 1-shot/3-shot/5-shot,DAIL selection方法仅次于**Upper Limit,比其他的方法都要好,**表明了问题相似性的重要性。
- 因为比**Upper Limit差,**表面了生成得query和真实的query之间的差距。
Example Organization
示例的组织方式有3种:
- Full-Information Organization
- SQLOnly Organization
- DAIL Organization
图4 :对不同example organization 的 Spider-dev 进行评估。
Example Selection 固定为 DAIL Selection。
-
详细数据如表10
-
spider数据集上,在GPT-4上,DAIL Organization 都比另外两种情况好。当为7-shot时,EX最高为83.5。
- 比如还有Spider-Realistic数据集上
SFT
开源模型-0-shot
- 不对齐,LLaMA-33B在EX指标表现最好42.8,EM指标最好是13.8
- 对齐后,codellama-34b在spider-dev表现最好,使用code representation,EX-68.5,EM-27.8
开源模型-few-shot
- 横坐标是k-shot:比如0-shot、1-shot、3-shot等
- 纵坐标是EX/EM
- EM指标上:LLaMA-33B表现最好
- EX指标上:Vicuna-33B表现最好
开源模型-SFT
-
不经过SFT模型,few-shot可以提高精度
-
LLaMA -7B-0-shot < LLaMA -7B -1-shot
-
经过SFT之后,few-shot反而会降低精度
-
LLaMA -7B-SFT-0-shot > LLaMA -7B -1-shot
Token Efficiency
这个比较还是有意思的,不光用精度评估,也要用过程的消耗以及token数量评估
- token 的数量
- 花钱多少
- 花时间多少
论文的数据实验非常扎实,分类别很多,需要很细致的看,附录也有很多实验,值得学习和借鉴。
结论
few-shot + SFT 效果不如SFT,这一点很关键。
- 在本文中,论文提出了一种新的快速工程方法,名为 DAIL-SQL,刷新 Spider 排行榜EX-86.6%,排名第一。
- 关于监督微调,论文展示了开源 LLM 在Text2SQL方面的巨大潜力,强调了在语料库预训练和模型参数的重要性,并指出微调后上下文学习能力的退化。
- 此外,论文进行对现有解决方案在效率方面的观察,其中表明 DAIL-SQL 效率更高,并强调了标记效率在提示工程中的重要性。
核心方法
DAIL-SQL-步骤
细节去参考源码,这里理解一下大概意思
-
输入:
-
目标question和目标database
-
其他的Text2SQL+LLM的基础信息:比如question、database、三元组(question,answer(就是SQL), dataset)、示例examples、model、相似度阈值等等等
-
输出:
-
针对目标quetsion,得到对应的sql
-
方法
-
1.对问题进行mask:包括目标question和候选questions
-
2.初步预测sql
-
3.解析预测的初步sql骨架
-
4.计算和mask_question的相似性,排序
-
5.重新排序:通过优先考虑具有高度的查询相似度的候选者来重新排序 Q
-
6.重新生成prompt和最后的SQL
一些细节
更加具体的细节:
- question representation --> Code Representation Prompt
- example selection --> DAIL Selection
- example organization --> DAIL Organization
- 使用 self-consistency -->增长0.4% 【Self-Consistency Improves Chain of Thought Reasoning in Language Models】