论文《Text2SQL is Not Enough: Unifying AI and Databases with TAG》

TAG出自2024年8月的论文《Text2SQL is Not Enough: Unifying AI and Databases with TAG》(github),它是一种结合了text2sqlRAG的用LLM来回答基于数据库的自然语言问题。

论文作者认为现实中用户的业务问题有两种重要的类型:1. 要求世界知识;2. 要求语义理解能力。而现有的text2sql或者RAG方法对于这两类问题的处理都不是很好,于是提出了如论文图1所示意的TAG框架,TAG以自然语言请求R作为输入,以基于数据源的自然语言A作为回答,它定义了三个关键步骤。

  1. Query Synthesis (syn):将用户的自然语言请求R转换成一个可执行的数据库查询语句Q。个人理解这一步即通常的text2sql要做的事情。
  2. Query Execution (exec):在数据库系统上执行查询Q并得到相关数据T。
  3. Answer Generation (gen):让LLM基于自然语言请求R和数据T生成回答;这一步就对应着RAG框架里的生成步骤。在图1的例子里,数据T被编码成了字符串后与问题一起作为LLM的输入。这一步会利用模型的语义推理能力来得到答案。

在提出TAG框架后,论文作者基于BIRD数据集构建了一个测试基准。构建时有两种修改方法:1. 将BIRD原来的问题修改需要世界知识,比如要求查询Bay Area的学校;2. 将问题修改为需要推理能力,比如获取数据集里的top 3讽刺评论。 评估这些修改后的问题依赖于人工标注的金标准。基准一种包括80个修改后的问题,40个要求世界知识,40个要求推理能力,match-based, comparison, ranking, aggregation这四种查询类型均匀分布。

最后,论文基于TAG框架做了试验,结果如下表所示。看完这部分后对试验有两个疑问:1.选择的text2sql的基准不是在BIRD上排名靠前的方法,就是一个很简单的prompt LLM的方法。2. 为什么TAG的实现是Hand-written TAG呢?

相关推荐
正在走向自律13 天前
Text2Sql:开启自然语言与数据库交互新时代(30/30)
数据库·人工智能·oracle·text2sql·ai智能体
大模型之路22 天前
Table-Augmented Generation(TAG):Text2SQL与RAG的升级与超越
llm·tag·text2sql·rag·检索增强生成
Hello_WOAIAI1 个月前
大模型时代的NL2SQL初探
自然语言处理·text2sql·nl2sql
(ง •_•)ง up2 个月前
深入了解Text2SQL开源项目(Chat2DB、SQL Chat 、Wren AI 、Vanna)
人工智能·sql·开源·text2sql
刘承卓4 个月前
【text2sql】基于上下文文学习的MCS-SQL框架在Spider和BIRD取得了新SOTA
sql·语言模型·自然语言处理·chatgpt·prompt·aigc·text2sql
chencjiajy4 个月前
text2sql: multi-agent实现思路MAC-SQL
论文阅读·llm·text2sql
chencjiajy4 个月前
text2sql方法:基于ChatGPT的zero-shot方法C3
论文阅读·text2sql
洛阳泰山4 个月前
Chainlit集成LlamaIndex并使用通义千问实现和数据库交互的网页对话应用(text2sql)
数据库·python·交互·text2sql·llamaindex·chainlit
chencjiajy4 个月前
text2sql方法:RESDSQL和DAIL-SQL
论文阅读·llm·text2sql