论文《Text2SQL is Not Enough: Unifying AI and Databases with TAG》

TAG出自2024年8月的论文《Text2SQL is Not Enough: Unifying AI and Databases with TAG》(github),它是一种结合了text2sqlRAG的用LLM来回答基于数据库的自然语言问题。

论文作者认为现实中用户的业务问题有两种重要的类型:1. 要求世界知识;2. 要求语义理解能力。而现有的text2sql或者RAG方法对于这两类问题的处理都不是很好,于是提出了如论文图1所示意的TAG框架,TAG以自然语言请求R作为输入,以基于数据源的自然语言A作为回答,它定义了三个关键步骤。

  1. Query Synthesis (syn):将用户的自然语言请求R转换成一个可执行的数据库查询语句Q。个人理解这一步即通常的text2sql要做的事情。
  2. Query Execution (exec):在数据库系统上执行查询Q并得到相关数据T。
  3. Answer Generation (gen):让LLM基于自然语言请求R和数据T生成回答;这一步就对应着RAG框架里的生成步骤。在图1的例子里,数据T被编码成了字符串后与问题一起作为LLM的输入。这一步会利用模型的语义推理能力来得到答案。

在提出TAG框架后,论文作者基于BIRD数据集构建了一个测试基准。构建时有两种修改方法:1. 将BIRD原来的问题修改需要世界知识,比如要求查询Bay Area的学校;2. 将问题修改为需要推理能力,比如获取数据集里的top 3讽刺评论。 评估这些修改后的问题依赖于人工标注的金标准。基准一种包括80个修改后的问题,40个要求世界知识,40个要求推理能力,match-based, comparison, ranking, aggregation这四种查询类型均匀分布。

最后,论文基于TAG框架做了试验,结果如下表所示。看完这部分后对试验有两个疑问:1.选择的text2sql的基准不是在BIRD上排名靠前的方法,就是一个很简单的prompt LLM的方法。2. 为什么TAG的实现是Hand-written TAG呢?

相关推荐
刘承卓17 天前
【text2sql】基于上下文文学习的MCS-SQL框架在Spider和BIRD取得了新SOTA
sql·语言模型·自然语言处理·chatgpt·prompt·aigc·text2sql
chencjiajy17 天前
text2sql: multi-agent实现思路MAC-SQL
论文阅读·llm·text2sql
chencjiajy23 天前
text2sql方法:基于ChatGPT的zero-shot方法C3
论文阅读·text2sql
洛阳泰山1 个月前
Chainlit集成LlamaIndex并使用通义千问实现和数据库交互的网页对话应用(text2sql)
数据库·python·交互·text2sql·llamaindex·chainlit
chencjiajy1 个月前
text2sql方法:RESDSQL和DAIL-SQL
论文阅读·llm·text2sql
shengjk13 个月前
解开基于大模型的Text2SQL的神秘面纱
大数据·开发语言·数据库·人工智能·aigc·text2sql·nl2sql
yubinCloud4 个月前
【Text2SQL 论文】MCS-SQL:利用多样 prompts + 多项选择来做 Text2SQL
数据库·语言模型·自然语言处理·prompt·text2sql
yubinCloud4 个月前
【Text2SQL 论文】CHESS:利用上下文来合成 SQL 的 pipeline
数据库·人工智能·深度学习·语言模型·自然语言处理·text2sql
yubinCloud5 个月前
【Text2SQL 论文】C3:使用 ChatGPT 实现 zero-shot Text2SQL
人工智能·算法·语言模型·自然语言处理·chatgpt·text2sql