论文《Text2SQL is Not Enough: Unifying AI and Databases with TAG》

TAG出自2024年8月的论文《Text2SQL is Not Enough: Unifying AI and Databases with TAG》(github),它是一种结合了text2sqlRAG的用LLM来回答基于数据库的自然语言问题。

论文作者认为现实中用户的业务问题有两种重要的类型:1. 要求世界知识;2. 要求语义理解能力。而现有的text2sql或者RAG方法对于这两类问题的处理都不是很好,于是提出了如论文图1所示意的TAG框架,TAG以自然语言请求R作为输入,以基于数据源的自然语言A作为回答,它定义了三个关键步骤。

  1. Query Synthesis (syn):将用户的自然语言请求R转换成一个可执行的数据库查询语句Q。个人理解这一步即通常的text2sql要做的事情。
  2. Query Execution (exec):在数据库系统上执行查询Q并得到相关数据T。
  3. Answer Generation (gen):让LLM基于自然语言请求R和数据T生成回答;这一步就对应着RAG框架里的生成步骤。在图1的例子里,数据T被编码成了字符串后与问题一起作为LLM的输入。这一步会利用模型的语义推理能力来得到答案。

在提出TAG框架后,论文作者基于BIRD数据集构建了一个测试基准。构建时有两种修改方法:1. 将BIRD原来的问题修改需要世界知识,比如要求查询Bay Area的学校;2. 将问题修改为需要推理能力,比如获取数据集里的top 3讽刺评论。 评估这些修改后的问题依赖于人工标注的金标准。基准一种包括80个修改后的问题,40个要求世界知识,40个要求推理能力,match-based, comparison, ranking, aggregation这四种查询类型均匀分布。

最后,论文基于TAG框架做了试验,结果如下表所示。看完这部分后对试验有两个疑问:1.选择的text2sql的基准不是在BIRD上排名靠前的方法,就是一个很简单的prompt LLM的方法。2. 为什么TAG的实现是Hand-written TAG呢?

相关推荐
core5121 天前
不借助框架实现Text2SQL
sql·mysql·ai·大模型·qwen·text2sql
沛沛老爹2 天前
基于LangChain SQL Agent与自研LLM+Prompt方案的技术原理、实现路径与落地实践
sql·ai·langchain·prompt·agent·text2sql
沛沛老爹4 天前
Text2SQL:让自助式数据报表开发从“技术门槛”走向“人人可用”
人工智能·text2sql·rag +·ai入门知识
core5124 天前
LangChain实现Text2SQL
langchain·大模型·qwen·text2sql
TGITCIC18 天前
第1课-通过DIFY实现一个完整的Text2Sql来讲AI原生及Agentic RAG长什么样
text2sql·dify·ai-native·chatbi·rag增强检索·agentic rag
chenchihwen24 天前
AI代码开发宝库系列:Text2SQL深度解析基于LangChain构建
人工智能·python·langchain·text2sql·rag
算法打盹中3 个月前
基于大型语言模型的自然语言到 SQL 转换研究综述:我们身处何处,又将前往何方?
人工智能·sql·语言模型·text2sql·nl2sql
许泽宇的技术分享3 个月前
当自然语言遇上数据库:Text2Sql.Net的MCP革命如何重新定义开发者与数据的交互方式
数据库·.net·text2sql·mcp
AwhiteV3 个月前
利用图数据库高效解决 Text2sql 任务中表结构复杂时占用过多大模型上下文的问题
数据库·人工智能·自然语言处理·oracle·大模型·text2sql
柠石榴6 个月前
【论文阅读笔记】Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation
论文阅读·提示工程·text2sql·llms·dail-sql