【论文ing】强化学习重塑 NL2SQL:单轮对齐、多轮交互与细粒度评估的最新进展(2020–2026)

文章目录

    • 一、问题背景与综述目标
    • 二、总体发展脉络与分类视角
      • [2.1 从早期执行奖励到 LLM+RL](#2.1 从早期执行奖励到 LLM+RL)
      • [2.2 功能视角:RL 在 Text-to-SQL 中扮演的几种角色](#2.2 功能视角:RL 在 Text-to-SQL 中扮演的几种角色)
    • [三、单轮执行对齐:SQL-R1 等方法](#三、单轮执行对齐:SQL-R1 等方法)
      • [3.1 SQL-R1:代表性的单阶段 RL NL2SQL 模型](#3.1 SQL-R1:代表性的单阶段 RL NL2SQL 模型)
      • [3.2 类似思想与扩展:小样本、LLM 生成奖励等](#3.2 类似思想与扩展:小样本、LLM 生成奖励等)
      • [3.3. 小结:共同特征与单轮执行对齐](#3.3. 小结:共同特征与单轮执行对齐)
    • [四、多轮交互与 Agent 化:SQL-Trail、SkyRL-SQL 等](#四、多轮交互与 Agent 化:SQL-Trail、SkyRL-SQL 等)
      • [4.1 SQL-Trail:多轮 RL agent 框架](#4.1 SQL-Trail:多轮 RL agent 框架)
      • [4.2 SkyRL-SQL:多轮 RL 的工业实践案例](#4.2 SkyRL-SQL:多轮 RL 的工业实践案例)
      • [4.3 进一步扩展:工具集成、多任务、协同 RL](#4.3 进一步扩展:工具集成、多任务、协同 RL)
    • [五、细粒度评估与奖励机制:从二元执行到 rubric-based 奖励](#五、细粒度评估与奖励机制:从二元执行到 rubric-based 奖励)
      • [5.1 二元执行奖励的局限](#5.1 二元执行奖励的局限)
      • [5.2 Rubric-based 与 critique-style 奖励](#5.2 Rubric-based 与 critique-style 奖励)
      • [5.3 结构相似度与局部奖励](#5.3 结构相似度与局部奖励)
    • [六、其它相关方向:问题生成、schema 检索与间接 RL](#六、其它相关方向:问题生成、schema 检索与间接 RL)
    • 七、当前研究的主要挑战
    • 八、未来研究方向与个人选题空间
    • 九、结论
    • References

一、问题背景与综述目标

自然语言到 SQL(NL2SQL / Text-to-SQL)旨在将用户的自然语言问题映射为在特定数据库上可执行的 SQL 查询,是自然语言接口数据库(NLIDB)的核心任务之一。随着大规模预训练语言模型(LLM)的出现,主流方法逐渐演化为"LLM + 提示/检索 + 轻量微调"的范式,但在复杂查询推理、跨库泛化和实际部署鲁棒性等方面仍存在明显瓶颈。强化学习(RL)因其"与环境交互、基于奖励信号优化策略"的特性,被越来越多地用于 Text-to-SQL,以更好地对齐模型行为与执行结果和系统目标。[1](#1)[2](#2)

本综述聚焦"强化学习在 NL2SQL/Text-to-SQL 中的应用",目标是:

  • 梳理 RL 介入 Text-to-SQL 的主要技术路径与代表性工作(尤其是近两年出现的 SQL-R1、SQL-Trail、SkyRL-SQL 等)。
  • 总结不同方法在奖励设计、训练流程和多轮交互等关键维度上的共性与差异。
  • 分析当前研究面临的主要挑战和未来可能的研究方向,为后续做更细致的专题研究(如奖励设计、多轮交互框架)打基础。

二、总体发展脉络与分类视角

2.1 从早期执行奖励到 LLM+RL

最早将强化学习用于 NL2SQL 的工作多基于中小规模 Seq2Seq 或代码生成模型,通过将"执行正确性"作为奖励来优化生成序列(如 Seq2SQL 之类的工作,在现代 LLM 综述中被作为经典例子引用)。这一阶段的特点是:[1](#1)

  • 模型本身容量有限,RL 主要用于弥补监督信号对执行结果刻画不足的问题。
  • 奖励通常是"能否成功执行 / 结果是否与标注一致"的二元信号,较为稀疏。
  • 训练流程多为"先监督学习,再用 REINFORCE/Policy Gradient 做一段 RL 微调"。

随着代码类 LLM 与通用 LLM 的兴起,RL 的角色逐渐从"微调小模型"演变为"对齐大模型行为与执行目标",包括:

  • 直接在大模型 Text-to-SQL 头上做 RL 微调(如 SQL-R1 一类工作)。
  • 在多轮 agent 框架下,通过 RL 学习如何与数据库环境交互(如 SQL-Trail、SkyRL-SQL 等多轮 RL 方法)。[3](#3)[4](#4)[5](#5)

2.2 功能视角:RL 在 Text-to-SQL 中扮演的几种角色

结合近年的代表工作,可将 RL 在 NL2SQL 中的大致角色概括为三类:

  1. 单轮执行对齐(single-pass, execution-aligned RL)
    • 以 SQL-R1 为代表,通过设计复合奖励提升单次生成 SQL 的执行正确率和推理质量。[6](#6)[5](#5)[7](#7)
  2. 多轮交互式推理(multi-turn, agentic RL)
    • 以 SQL-Trail、SkyRL-SQL 等为代表,将 Text-to-SQL 视作"与数据库环境交互的多轮决策任务",通过多步查询与反馈迭代修正 SQL。[4](#4)[8](#8)[3](#3)
  3. 评测/奖励机制增强(evaluation-aligned RL)
    • 以细粒度奖励和自动打分器为代表(如 fine-grained RL with rubric-based judge),通过更细粒度的评估与奖励改善模型行为,而不仅仅依赖二元执行结果。[9](#9)[10](#10)

此外,还有一些工作将 RL 用于辅助模块,如 Text-to-SQL 过程中的 schema 检索、问题生成或工具使用策略等,属于"间接作用于 NL2SQL"的场景。[11](#11)

三、单轮执行对齐:SQL-R1 等方法

3.1 SQL-R1:代表性的单阶段 RL NL2SQL 模型

SQL-R1 是近两年强化学习在 NL2SQL 领域中最具代表性的单阶段 RL 工作之一,其核心思想是:在一个已经通过监督学习(SFT)初始化的大模型(如 Qwen2.5-Coder-7B)上,利用分组强化策略优化(GRPO)和复合奖励函数对 NL→SQL 推理过程进行强化学习训练。其关键设计包括:[5](#5)[7](#7)[6](#6)

  • 训练流程

    • 第一阶段:使用有限数量的标注或合成 NL--SQL 样本进行监督微调,使模型基本掌握语法与任务格式。
    • 第二阶段:基于 GRPO 进行强化学习。对每个自然语言问题,模型一次性生成若干带有思维过程和 SQL 候选的样本,执行 SQL 并根据奖励函数对策略进行更新。[6](#6)[5](#5)
  • 复合奖励设计

    • 格式奖励(Format Reward) :鼓励模型以预期的 <think>...</think><sql>...</sql> 样式输出思维过程和 SQL,从而便于解析和监控。[5](#5)[6](#6)
    • 执行奖励(Execution Reward) :根据 SQL 是否能成功执行进行打分,避免生成语法错误或无法在目标数据库上运行的语句。[5](#5)
    • 结果奖励(Result Reward) :根据执行结果是否与 gold query 的结果一致进行更细致的反馈,引导模型关注语义等价而非仅语法正确。[6](#6)[5](#5)
    • 长度相关奖励(Length Reward) :对思维过程和 SQL 长度进行归一化惩罚,以抑制过度冗长的推理或过于复杂的 SQL 结构。[6](#6)
  • 候选选择与自一致性

    • 在推理阶段,SQL-R1 对同一个问题生成多个 SQL 候选,执行并根据奖励得分选择得分最高者作为最终输出,这一方式与自一致性投票相结合,进一步提升了执行准确率。[5](#5)[6](#6)

在 Spider 与 BIRD 等标准基准上,SQL-R1 在 7B 量级模型上达到接近或超过闭源大模型(如 GPT-4/4o)的执行准确率,在 Spider Test 上约 88--89% EX,在 BIRD Dev 上约 66--67% EX,表明单阶段 RL 在复杂 NL2SQL 场景中具有显著提升空间。[7](#7)[6](#6)[5](#5)

3.2 类似思想与扩展:小样本、LLM 生成奖励等

除了 SQL-R1 这一代表,还有若干工作在相似思路下探索不同维度:

  • 小样本+小模型场景

    • 一些工业界实验(如 IBM SQL-RL-GEN)使用较小的 200M--300M 参数模型,在仅有上千条训练样本的场景下,通过 RL 和 LLM 生成的奖励信号,将执行准确率提高了约 7%,体现了 RL 在"小数据+小模型"设定下的潜力。[12](#12)
  • 更细粒度的奖励 / 判别器

    • 有工作提出使用"rubric-based generative judge"(如 RuCo-C)自动为每个查询生成细粒度评价准则与批注,由此产生稠密、可解释的奖励信号,解决单一执行结果奖励过于粗糙的问题。[10](#10)[9](#9)

3.3. 小结:共同特征与单轮执行对齐

总体来看,单轮执行对齐类方法的共同特征是:

  • 把 NL2SQL 看作"一次性生成程序"的问题,RL 只在最终输出上给奖励。
  • 奖励设计已经从单一执行结果逐步演化为"语法+执行+结果+长度"等多维复合信号。
  • 依赖一个较好的 SFT 初始化,RL 阶段主要用于"对齐"和"微调"而非从零学习。

其局限在于:

  • 中间生成过程缺乏显式的交互与自纠错机会,错误往往在最终一步暴露,而奖励难以精确定位问题所在。
  • 对于极其复杂或 OOD 的查询,单次生成往往难以通过一次修正弥补所有偏差。

四、多轮交互与 Agent 化:SQL-Trail、SkyRL-SQL 等

4.1 SQL-Trail:多轮 RL agent 框架

SQL-Trail 提出将 Text-to-SQL 从"静态翻译任务"重塑为"与数据库环境交互的多轮推理任务",通过多轮 RL agent 框架实现 schema 探索、错误纠正和难度感知的 turn 分配。其关键思想可以概括为:[13](#13)[8](#8)[4](#4)

  • 多轮交互流程

    • LLM 作为 agent,在每一轮生成一段自然语言推理(<think>)和一个 SQL(或工具调用),环境返回执行结果、错误消息或中间表格预览,agent 基于新的 observation 更新内部状态并决定下一步动作,直到终止并输出最终 SQL。[8](#8)[4](#4)
  • 难度感知的 turn-budget 分配

    • SQL-Trail 为每个样本分配一个与问题难度相关的最大交互轮数;简单问题用较少轮数解决,复杂问题允许更多轮数,从而在总体上控制推理成本并减少"过度思考"。[4](#4)[8](#8)
  • 复合奖励面板(六项奖励)

    • 与单轮 RL 使用少数若干奖励项不同,SQL-Trail 设计了包含执行结果、SQL 结构相似度(如 bigram similarity)、turn 效率、语法合法性、格式约束等在内的六维 reward 面板,[8](#8)[4](#4)
    • 其中,结构相似度 reward 被实证证明对提升稳定性贡献最大,而 turn 效率 reward 有效抑制无意义轮次并支撑难度感知的预算机制。[8](#8)
  • 两阶段训练:SFT + 多轮 RL

    • 阶段一:蒸馏一个强闭源 teacher(如 Claude)生成的多轮轨迹,对较小的开源模型进行监督学习,使其掌握复杂的 agent 协议和工具调用格式。[4](#4)[8](#8)
    • 阶段二:在真实数据库执行环境中,用 GRPO 变体对多轮策略进行 RL 优化,实现对 turn allocation 与 schema 探索策略的细致调整。[4](#4)

在 Spider 系列和 BIRD-SQL 等基准上,SQL-Trail 在使用不足 2000 条训练样本的情况下,在执行准确率和 OOD 泛化能力上取得新的 SOTA,特别是在 Spider-Syn 和 Spider-Realistic 等更具挑战性的子集上,展示了多轮交互与 RL 对于复杂环境下稳健 Text-to-SQL 的优势。[8](#8)[4](#4)

4.2 SkyRL-SQL:多轮 RL 的工业实践案例

SkyRL-SQL(基于 VeRL 和 SearchR1 agent loop 的多轮 RL Text-to-SQL 实践)从工业工程视角展示了多轮 RL 的优势:[3](#3)

  • 多轮交互协议

    • 基于 <think><sql><observation><solution> 等标记,将思维过程、探索性 SQL 和最终解答分离,允许模型在中间步骤频繁发出探索性查询、检查中间结果并纠错。[3](#3)
  • 简单但有效的奖励设计

    • 奖励函数仅包含两项:格式奖励(是否遵守交互协议)和执行奖励(最终 SQL 是否执行成功且结果匹配 gold),相较于 SQL-Trail 的多项奖励面板更为简洁。[3](#3)
  • 多轮 RL vs 单轮 RL 的实验观察

    • 在相同训练样本和奖励设定下,多轮 RL 在训练中获得的平均 reward 收敛更快(约 2.8 倍训练步数内达成相同 reward 水平),最终 reward 也显著更高(+16%)。[3](#3)
    • 在单轮评估模式下,多轮训练的模型依然优于单轮训练的模型(+1.6% EX);在允许 5 轮交互的评估下,多轮训练模型的 EX 进一步提升约 4.5%,而单轮训练模型在多轮环境中反而退步,表明其无法有效利用反馈。[3](#3)

SkyRL-SQL 的结果佐证了多轮 RL 对于训练"内部推理能力"和"交互式纠错能力"的作用,并显示即便最终部署在单轮场景,多轮训练带来的收益仍然存在。

4.3 进一步扩展:工具集成、多任务、协同 RL

在多轮 RL 框架基础上,有工作进一步将 Text-to-SQL agent 与其他工具结合,如检索、多模态解释器或代码执行器,通过 RL 学习何时调用何种工具,并借助执行反馈优化策略。同时,也出现了将 Text-to-SQL 任务拆分为 schema linking 与 SQL 生成两阶段、并用 cooperative RL 协同优化两个子 agent 的工作,尤其是在小模型和资源受限场景下。[14](#14)[15](#15)

这些扩展方向表明,多轮 RL 与 agent 框架天然适合承载"工具增强型 NL2SQL",使得模型可以在更复杂的数据与任务环境中运作。

五、细粒度评估与奖励机制:从二元执行到 rubric-based 奖励

5.1 二元执行奖励的局限

传统 RL+NL2SQL 工作多依赖"SQL 是否执行成功、结果是否正确"这一二元信号作为奖励,这在早期小模型场景中尚可接受,但在面对长 SQL、多表 joins、复杂嵌套查询时,往往过于稀疏,难以为模型提供足够的学习信号。此外,执行结果往往无法区分"结构接近但有小错误"的候选与"完全无关"的候选,导致奖励无法指导模型在结构空间中做细致调整。[1](#1)[5](#5)

5.2 Rubric-based 与 critique-style 奖励

为解决上述问题,近年的一些工作引入了基于 rubric 的细粒度评估与奖励机制:

  • RuCo-C 等方法提出使用生成式 judge,为每个查询自动构建评价量表和批注,从而可以对 SQL 的语义正确性、结构合理性和风格规范等多个维度进行打分。[9](#9)[10](#10)
  • 在 RL 训练中,这类 judge 可以为每个候选 SQL 提供更稠密的 reward,甚至对错误类型进行区分,使模型在一步步优化中获得更具体的指导,而不仅仅是"对/错"信号。[10](#10)[9](#9)

5.3 结构相似度与局部奖励

SQL-Trail 的实验表明,以 bigram similarity 为代表的结构相似度 reward 是其六项奖励中收益最大的单项,有效稳定了训练过程。这说明:[8](#8)

  • 仅凭执行结果难以捕捉"离正确 SQL 还差多远",而结构相似度提供了一个连续的、与目标 SQL 接近程度相关的信号。
  • 在多轮 RL 框架下,结合同步记录中间候选 SQL,可以为每一步的结构调整提供局部奖励,进一步提升学习效率。[4](#4)[8](#8)

综上,细粒度评估与多维奖励正在逐步替代单一执行奖励,成为 RL+NL2SQL 的重要趋势。

六、其它相关方向:问题生成、schema 检索与间接 RL

强化学习在 Text-to-SQL 生态中并不局限于"直接优化 SQL 生成器"。还有一些工作利用 RL 改进与 NL2SQL 相关的其他环节:

  • 问题/SQL 对生成与数据增强

    • 有工作提出采用 in-context reinforcement learning 框架优化问题生成模块,以产生更加复杂和多样的合成查询,从而改进后续 Text-to-SQL 训练的数据分布和难度结构。[11](#11)
  • schema 检索与子库选择

    • 在工业级大规模数据库环境下,经常需要先从成千上万张表中检索相关子 schema,再交给 LLM 进行 SQL 生成。部分工作尝试使用 RL 优化检索策略,使其在复杂环境下具有更高召回率和效率。[11](#11)
  • 协同/多智能体 RL

    • 在小模型场景下,有研究提出将 Text-to-SQL 任务拆分为 schema linking 与 SQL generation 两个子任务,分别由两个 agent 负责,并使用 cooperative RL 联合优化,从而提高整体性能和可解释性。[14](#14)

这些方向虽然不直接修改主 SQL 生成器,但通过改善训练数据、检索质量和子模块协同,对 NL2SQL 系统整体性能有间接但重要的贡献。

七、当前研究的主要挑战

尽管 RL 在 NL2SQL 中已经展示出显著潜力,但综合现有文献与实践,总体上仍面临若干核心挑战:

  1. 数据与算力成本

    • 尽管 SQL-R1 和 SQL-Trail 等方法强调"数据高效"(如使用几千条样本达到接近或超过闭源模型的性能),但在实际实现中,执行环境搭建、reward 计算和多轮 roll-out 仍然昂贵。[6](#6)[5](#5)[4](#4)
  2. 训练稳定性与可复现性

    • 多项 reward 与复杂交互流程增加了训练不稳定的可能性,不同实现细节(如错误处理、timeout 设定、SQL 引擎版本)都可能对结果产生显著影响,给复现带来困难。[4](#4)[8](#8)[3](#3)
  3. 评测维度不足

    • 现有基准多聚焦于整体 EX/EM,对多轮 agent 的"思考路径质量""交互效率""鲁棒性"等缺乏统一评测标准,限制了不同 RL 框架间的客观比较。[2](#2)[1](#1)
  4. 安全性与边界控制

    • 多轮 RL agent 在真实数据库环境中探索时,可能触发代价高昂或危险的查询操作;如何在保障安全与资源可控的前提下进行 RL 训练,是实际部署中必须解决的问题。[3](#3)
  5. 与大模型对齐的关系

    • 对于极大规模闭源模型而言,如何在不访问其参数的条件下,通过 RL 或交互式对齐进一步提升 NL2SQL 能力,仍然是开放问题;同时,有必要研究 RL 对模型对齐特性的长期影响(例如是否会产生过拟合特定 schema 的偏差)。

八、未来研究方向与个人选题空间

综合现有工作,可以看到强化学习在 NL2SQL 中已经从"单纯提升指标的小技巧"发展为"重新定义任务范式的关键手段",特别是在以下几个方向上:

  1. 多轮交互框架与难度感知控制

    • SQL-Trail、SkyRL-SQL 等工作表明,多轮 RL 能够显著提升复杂查询和 OOD 场景下的表现,即便在单轮评估模式下仍有收益。[8](#8)[4](#4)[3](#3)
    • 未来可以进一步研究更加精细的难度估计、turn 分配策略以及与人类偏好/交互体验对齐的奖励设计。
  2. 细粒度奖励与可解释评估

    • rubrics-based judge、结构相似度 reward 等方向提示,细粒度、可解释的奖励不仅改善训练,还可以加深对模型错误模式的理解。[9](#9)[10](#10)[8](#8)
    • 在 NL2SQL 领域,构建针对 SQL 结构、schema 使用、错误类型等维度的系统性评估与奖励框架,是一个有潜力的研究课题。
  3. 小模型 + RL 的资源受限场景

    • 多个工作展示了在中小模型和小数据集上的显著提升,这对于边缘部署、企业内网和算力受限环境尤为重要。[12](#12)[3](#3)
    • 结合 parameter-efficient tuning、offline RL 或 imitation+RL 混合方法,可能进一步降低成本、提高稳定性。
  4. 多模块与多智能体协同

    • 将 Text-to-SQL 任务拆解为检索、schema linking、SQL 生成、结果解释等子任务,并用协作式 RL 统一优化,是一个自然的演进方向。[15](#15)[14](#14)[11](#11)
  5. 评测标准与开放基准的建设

    • 在现有 Spider/BIRD 等基准之上,构建专门针对 RL+NL2SQL 的评测子集,如多轮交互能力、错误恢复能力、资源/延迟约束下的表现等,将有助于推动这一方向的系统性发展。[2](#2)[1](#1)

对于希望在"强化学习 + NL2SQL"方向做综述或后续研究的学生而言,可以从上述几个维度中选择一个切口:例如,专注于"多轮交互 RL 框架的奖励设计与评测方法",或者"细粒度 rubric-based 奖励在 Text-to-SQL 中的应用",在现有工作的基础上做更系统的整理与分析,再逐渐延伸到具体方法创新。

九、结论

强化学习在 NL2SQL/Text-to-SQL 领域已经从早期的小模型执行奖励微调,发展到围绕 LLM 的单轮执行对齐、多轮交互式推理和细粒度评测与奖励的多种形态。

  • SQL-R1 代表了单阶段、复合奖励驱动的 NL2SQL 推理模型,在 Spider 和 BIRD 等基准上取得接近或超过闭源大模型的性能;
  • SQL-Trail 和 SkyRL-SQL 等多轮 RL agent 则展示了在复杂查询和 OOD 场景下,多轮环境交互与难度感知控制的巨大价值。
  • 与此同时,以 rubric-based judge、结构相似度奖励为代表的细粒度评估方法,正在弥补传统二元执行奖励的不足,为 RL 提供更稠密、更可解释的优化信号。[10](#10)[9](#9)[5](#5)[6](#6)[4](#4)[8](#8)[3](#3)

尽管存在数据与算力成本、训练稳定性、安全性与评测标准等挑战,现有工作已经清晰地表明:

  • 在复杂数据库环境下,单纯依赖一次性生成难以满足实际需求,RL 尤其是多轮交互式 RL,为构建更鲁棒、更智能的 NL2SQL agent 提供了新的技术路径。
  • 后续研究可以在奖励设计、多轮交互策略、细粒度评估框架以及小模型/资源受限场景等方向继续深入,为这一交叉领域提供更系统、更可落地的解决方案。

References


  1. Text-to-SQL Empowered by Large Language Models - 作者:D Gao · 被引用次数:673 --- A Survey on Deep. Learning Approaches for Text-to-SQL. VLDB J ... Seq2SQL: Ge... ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. A Survey on Employing Large Language Models for Text-to ... - 作者:L Shi · 2025 · 被引用次数:120 --- Their findings demonstrate that generative language models trained on ... ↩︎ ↩︎ ↩︎

  3. Text-to-SQL just got a lot better with RL - SkyRL-SQL uses a multi-turn RL framework where the agent learns to probe the database, observe feedb... ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  4. SQL-Trail: Multi-Turn Reinforcement Learning with Interleaved ... - Our main contributions are as follows: (1) Unified Multi-turn RL Training Framework: We present the ... ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  5. Training Natural Language to SQL Reasoning Model By ... - arXiv.org - In this work, we propose SQL-R1, a novel NL2SQL reasoning model trained via reinforcement learning (... ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  6. SQL-R1: Training Natural Language to SQL Reasoning Model By ... - Key Results: SQL-R1 achieves execution accuracy of 88.6% on the Spider benchmark and 67.1% on the BI... ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  7. SQL-R1: Training Natural Language to SQL Reasoning ... - NeurIPS - In existing experiments, SQL-R1 achieves execution accuracy of 88.6% and 67.1% on the benchmark Sp... ↩︎ ↩︎ ↩︎

  8. [Literature Review] SQL-Trail: Multi-Turn Reinforcement Learning ... - Multi-turn Reward Design: Unlike sparse binary execution rewards, SQL-TRAIL employs a six-term, rule... ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  9. Fine-Grained Reinforcement Learning for Text-to-SQL with ... - 作者:G Wang · 2025 · 被引用次数:1 --- Our framework first automatically generates query-specific evaluation r... ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  10. Fine-Grained Reinforcement Learning for Text-to-SQL with ... - 作者:G Wang · 2025 · 被引用次数:1 --- Our framework first automatically generates query-specific evaluation r... ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  11. In-Context Reinforcement Learning with Retrieval ... - 作者:R Toteja · 2025 · 被引用次数:15 --- Text-to-SQL simplifies database interactions by enabling non-experts... ↩︎ ↩︎ ↩︎ ↩︎

  12. IBM/sql-rl-gen - The SQL-RL-GEN is an algorithm based on a Reinforcement Learning approach with a reward function gen... ↩︎ ↩︎

  13. [2601.17699] SQL-Trail: Multi-Turn Reinforcement Learning ... - arXiv - To address this limitation, we introduce SQL-Trail, a multi-turn reinforcement learning (RL) agentic... ↩︎

  14. Enhanced Text-to-SQL using cooperative reinforcement ... - This paper proposes a cooperative reinforcement learning (CRL) framework for Text-to-SQL that explic... ↩︎ ↩︎ ↩︎

  15. Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL ... - We first formulate the task as a sequential decision-making process, followed by our reward design a... ↩︎ ↩︎

相关推荐
杨超越luckly1 小时前
AI Agent应用指南 :自动化构建品牌数据库:提示词 + API + 结构化输出
大数据·数据库·人工智能·自动化·ai agent
写代码的小阿帆1 小时前
MySQL多表联查——内连、外连
数据库·mysql
九章-1 小时前
金仓数据库迁移工具链:Oracle平滑迁移的技术实践
数据库·oracle·数据库迁移工具·oracle迁移工具
逍遥德1 小时前
Postgresql explain执行计划详解
数据库·后端·sql·postgresql·数据分析
空空潍1 小时前
PostgreSQL保姆级下载安装指南(win版)
数据库·postgresql
海山数据库1 小时前
移动云大云海山数据库(He3DB)与PolarDB架构深度对比(一)
数据库·架构·he3db·大云海山数据库·移动云数据库
dapeng28701 小时前
Django全栈开发入门:构建一个博客系统
jvm·数据库·python
TG_yunshuguoji1 小时前
阿里云代理商:怎么创建和连接RDS云数据库?
数据库·阿里云·云计算
小陳参上2 小时前
持久化数据库实现:确保数据持久性与可靠性
java·jvm·数据库