文章目录
-
- 一、问题背景与综述目标
- 二、总体发展脉络与分类视角
-
- [2.1 从早期执行奖励到 LLM+RL](#2.1 从早期执行奖励到 LLM+RL)
- [2.2 功能视角:RL 在 Text-to-SQL 中扮演的几种角色](#2.2 功能视角:RL 在 Text-to-SQL 中扮演的几种角色)
- [三、单轮执行对齐:SQL-R1 等方法](#三、单轮执行对齐:SQL-R1 等方法)
-
- [3.1 SQL-R1:代表性的单阶段 RL NL2SQL 模型](#3.1 SQL-R1:代表性的单阶段 RL NL2SQL 模型)
- [3.2 类似思想与扩展:小样本、LLM 生成奖励等](#3.2 类似思想与扩展:小样本、LLM 生成奖励等)
- [3.3. 小结:共同特征与单轮执行对齐](#3.3. 小结:共同特征与单轮执行对齐)
- [四、多轮交互与 Agent 化:SQL-Trail、SkyRL-SQL 等](#四、多轮交互与 Agent 化:SQL-Trail、SkyRL-SQL 等)
-
- [4.1 SQL-Trail:多轮 RL agent 框架](#4.1 SQL-Trail:多轮 RL agent 框架)
- [4.2 SkyRL-SQL:多轮 RL 的工业实践案例](#4.2 SkyRL-SQL:多轮 RL 的工业实践案例)
- [4.3 进一步扩展:工具集成、多任务、协同 RL](#4.3 进一步扩展:工具集成、多任务、协同 RL)
- [五、细粒度评估与奖励机制:从二元执行到 rubric-based 奖励](#五、细粒度评估与奖励机制:从二元执行到 rubric-based 奖励)
-
- [5.1 二元执行奖励的局限](#5.1 二元执行奖励的局限)
- [5.2 Rubric-based 与 critique-style 奖励](#5.2 Rubric-based 与 critique-style 奖励)
- [5.3 结构相似度与局部奖励](#5.3 结构相似度与局部奖励)
- [六、其它相关方向:问题生成、schema 检索与间接 RL](#六、其它相关方向:问题生成、schema 检索与间接 RL)
- 七、当前研究的主要挑战
- 八、未来研究方向与个人选题空间
- 九、结论
- References
一、问题背景与综述目标
自然语言到 SQL(NL2SQL / Text-to-SQL)旨在将用户的自然语言问题映射为在特定数据库上可执行的 SQL 查询,是自然语言接口数据库(NLIDB)的核心任务之一。随着大规模预训练语言模型(LLM)的出现,主流方法逐渐演化为"LLM + 提示/检索 + 轻量微调"的范式,但在复杂查询推理、跨库泛化和实际部署鲁棒性等方面仍存在明显瓶颈。强化学习(RL)因其"与环境交互、基于奖励信号优化策略"的特性,被越来越多地用于 Text-to-SQL,以更好地对齐模型行为与执行结果和系统目标。[1](#1)[2](#2)
本综述聚焦"强化学习在 NL2SQL/Text-to-SQL 中的应用",目标是:
- 梳理 RL 介入 Text-to-SQL 的主要技术路径与代表性工作(尤其是近两年出现的 SQL-R1、SQL-Trail、SkyRL-SQL 等)。
- 总结不同方法在奖励设计、训练流程和多轮交互等关键维度上的共性与差异。
- 分析当前研究面临的主要挑战和未来可能的研究方向,为后续做更细致的专题研究(如奖励设计、多轮交互框架)打基础。
二、总体发展脉络与分类视角
2.1 从早期执行奖励到 LLM+RL
最早将强化学习用于 NL2SQL 的工作多基于中小规模 Seq2Seq 或代码生成模型,通过将"执行正确性"作为奖励来优化生成序列(如 Seq2SQL 之类的工作,在现代 LLM 综述中被作为经典例子引用)。这一阶段的特点是:[1](#1)
- 模型本身容量有限,RL 主要用于弥补监督信号对执行结果刻画不足的问题。
- 奖励通常是"能否成功执行 / 结果是否与标注一致"的二元信号,较为稀疏。
- 训练流程多为"先监督学习,再用 REINFORCE/Policy Gradient 做一段 RL 微调"。
随着代码类 LLM 与通用 LLM 的兴起,RL 的角色逐渐从"微调小模型"演变为"对齐大模型行为与执行目标",包括:
- 直接在大模型 Text-to-SQL 头上做 RL 微调(如 SQL-R1 一类工作)。
- 在多轮 agent 框架下,通过 RL 学习如何与数据库环境交互(如 SQL-Trail、SkyRL-SQL 等多轮 RL 方法)。[3](#3)[4](#4)[5](#5)
2.2 功能视角:RL 在 Text-to-SQL 中扮演的几种角色
结合近年的代表工作,可将 RL 在 NL2SQL 中的大致角色概括为三类:
- 单轮执行对齐(single-pass, execution-aligned RL) :
- 以 SQL-R1 为代表,通过设计复合奖励提升单次生成 SQL 的执行正确率和推理质量。[6](#6)[5](#5)[7](#7)
- 多轮交互式推理(multi-turn, agentic RL) :
- 以 SQL-Trail、SkyRL-SQL 等为代表,将 Text-to-SQL 视作"与数据库环境交互的多轮决策任务",通过多步查询与反馈迭代修正 SQL。[4](#4)[8](#8)[3](#3)
- 评测/奖励机制增强(evaluation-aligned RL) :
- 以细粒度奖励和自动打分器为代表(如 fine-grained RL with rubric-based judge),通过更细粒度的评估与奖励改善模型行为,而不仅仅依赖二元执行结果。[9](#9)[10](#10)
此外,还有一些工作将 RL 用于辅助模块,如 Text-to-SQL 过程中的 schema 检索、问题生成或工具使用策略等,属于"间接作用于 NL2SQL"的场景。[11](#11)
三、单轮执行对齐:SQL-R1 等方法
3.1 SQL-R1:代表性的单阶段 RL NL2SQL 模型
SQL-R1 是近两年强化学习在 NL2SQL 领域中最具代表性的单阶段 RL 工作之一,其核心思想是:在一个已经通过监督学习(SFT)初始化的大模型(如 Qwen2.5-Coder-7B)上,利用分组强化策略优化(GRPO)和复合奖励函数对 NL→SQL 推理过程进行强化学习训练。其关键设计包括:[5](#5)[7](#7)[6](#6)
-
训练流程:
- 第一阶段:使用有限数量的标注或合成 NL--SQL 样本进行监督微调,使模型基本掌握语法与任务格式。
- 第二阶段:基于 GRPO 进行强化学习。对每个自然语言问题,模型一次性生成若干带有思维过程和 SQL 候选的样本,执行 SQL 并根据奖励函数对策略进行更新。[6](#6)[5](#5)
-
复合奖励设计:
- 格式奖励(Format Reward) :鼓励模型以预期的
<think>...</think>和<sql>...</sql>样式输出思维过程和 SQL,从而便于解析和监控。[5](#5)[6](#6) - 执行奖励(Execution Reward) :根据 SQL 是否能成功执行进行打分,避免生成语法错误或无法在目标数据库上运行的语句。[5](#5)
- 结果奖励(Result Reward) :根据执行结果是否与 gold query 的结果一致进行更细致的反馈,引导模型关注语义等价而非仅语法正确。[6](#6)[5](#5)
- 长度相关奖励(Length Reward) :对思维过程和 SQL 长度进行归一化惩罚,以抑制过度冗长的推理或过于复杂的 SQL 结构。[6](#6)
- 格式奖励(Format Reward) :鼓励模型以预期的
-
候选选择与自一致性:
- 在推理阶段,SQL-R1 对同一个问题生成多个 SQL 候选,执行并根据奖励得分选择得分最高者作为最终输出,这一方式与自一致性投票相结合,进一步提升了执行准确率。[5](#5)[6](#6)
在 Spider 与 BIRD 等标准基准上,SQL-R1 在 7B 量级模型上达到接近或超过闭源大模型(如 GPT-4/4o)的执行准确率,在 Spider Test 上约 88--89% EX,在 BIRD Dev 上约 66--67% EX,表明单阶段 RL 在复杂 NL2SQL 场景中具有显著提升空间。[7](#7)[6](#6)[5](#5)
3.2 类似思想与扩展:小样本、LLM 生成奖励等
除了 SQL-R1 这一代表,还有若干工作在相似思路下探索不同维度:
-
小样本+小模型场景:
- 一些工业界实验(如 IBM SQL-RL-GEN)使用较小的 200M--300M 参数模型,在仅有上千条训练样本的场景下,通过 RL 和 LLM 生成的奖励信号,将执行准确率提高了约 7%,体现了 RL 在"小数据+小模型"设定下的潜力。[12](#12)
-
更细粒度的奖励 / 判别器:
- 有工作提出使用"rubric-based generative judge"(如 RuCo-C)自动为每个查询生成细粒度评价准则与批注,由此产生稠密、可解释的奖励信号,解决单一执行结果奖励过于粗糙的问题。[10](#10)[9](#9)
3.3. 小结:共同特征与单轮执行对齐
总体来看,单轮执行对齐类方法的共同特征是:
- 把 NL2SQL 看作"一次性生成程序"的问题,RL 只在最终输出上给奖励。
- 奖励设计已经从单一执行结果逐步演化为"语法+执行+结果+长度"等多维复合信号。
- 依赖一个较好的 SFT 初始化,RL 阶段主要用于"对齐"和"微调"而非从零学习。
其局限在于:
- 中间生成过程缺乏显式的交互与自纠错机会,错误往往在最终一步暴露,而奖励难以精确定位问题所在。
- 对于极其复杂或 OOD 的查询,单次生成往往难以通过一次修正弥补所有偏差。
四、多轮交互与 Agent 化:SQL-Trail、SkyRL-SQL 等
4.1 SQL-Trail:多轮 RL agent 框架
SQL-Trail 提出将 Text-to-SQL 从"静态翻译任务"重塑为"与数据库环境交互的多轮推理任务",通过多轮 RL agent 框架实现 schema 探索、错误纠正和难度感知的 turn 分配。其关键思想可以概括为:[13](#13)[8](#8)[4](#4)
-
多轮交互流程:
- LLM 作为 agent,在每一轮生成一段自然语言推理(
<think>)和一个 SQL(或工具调用),环境返回执行结果、错误消息或中间表格预览,agent 基于新的 observation 更新内部状态并决定下一步动作,直到终止并输出最终 SQL。[8](#8)[4](#4)
- LLM 作为 agent,在每一轮生成一段自然语言推理(
-
难度感知的 turn-budget 分配:
- SQL-Trail 为每个样本分配一个与问题难度相关的最大交互轮数;简单问题用较少轮数解决,复杂问题允许更多轮数,从而在总体上控制推理成本并减少"过度思考"。[4](#4)[8](#8)
-
复合奖励面板(六项奖励):
- 与单轮 RL 使用少数若干奖励项不同,SQL-Trail 设计了包含执行结果、SQL 结构相似度(如 bigram similarity)、turn 效率、语法合法性、格式约束等在内的六维 reward 面板,[8](#8)[4](#4)
- 其中,结构相似度 reward 被实证证明对提升稳定性贡献最大,而 turn 效率 reward 有效抑制无意义轮次并支撑难度感知的预算机制。[8](#8)
-
两阶段训练:SFT + 多轮 RL:
- 阶段一:蒸馏一个强闭源 teacher(如 Claude)生成的多轮轨迹,对较小的开源模型进行监督学习,使其掌握复杂的 agent 协议和工具调用格式。[4](#4)[8](#8)
- 阶段二:在真实数据库执行环境中,用 GRPO 变体对多轮策略进行 RL 优化,实现对 turn allocation 与 schema 探索策略的细致调整。[4](#4)
在 Spider 系列和 BIRD-SQL 等基准上,SQL-Trail 在使用不足 2000 条训练样本的情况下,在执行准确率和 OOD 泛化能力上取得新的 SOTA,特别是在 Spider-Syn 和 Spider-Realistic 等更具挑战性的子集上,展示了多轮交互与 RL 对于复杂环境下稳健 Text-to-SQL 的优势。[8](#8)[4](#4)
4.2 SkyRL-SQL:多轮 RL 的工业实践案例
SkyRL-SQL(基于 VeRL 和 SearchR1 agent loop 的多轮 RL Text-to-SQL 实践)从工业工程视角展示了多轮 RL 的优势:[3](#3)
-
多轮交互协议:
- 基于
<think>、<sql>、<observation>、<solution>等标记,将思维过程、探索性 SQL 和最终解答分离,允许模型在中间步骤频繁发出探索性查询、检查中间结果并纠错。[3](#3)
- 基于
-
简单但有效的奖励设计:
- 奖励函数仅包含两项:格式奖励(是否遵守交互协议)和执行奖励(最终 SQL 是否执行成功且结果匹配 gold),相较于 SQL-Trail 的多项奖励面板更为简洁。[3](#3)
-
多轮 RL vs 单轮 RL 的实验观察:
- 在相同训练样本和奖励设定下,多轮 RL 在训练中获得的平均 reward 收敛更快(约 2.8 倍训练步数内达成相同 reward 水平),最终 reward 也显著更高(+16%)。[3](#3)
- 在单轮评估模式下,多轮训练的模型依然优于单轮训练的模型(+1.6% EX);在允许 5 轮交互的评估下,多轮训练模型的 EX 进一步提升约 4.5%,而单轮训练模型在多轮环境中反而退步,表明其无法有效利用反馈。[3](#3)
SkyRL-SQL 的结果佐证了多轮 RL 对于训练"内部推理能力"和"交互式纠错能力"的作用,并显示即便最终部署在单轮场景,多轮训练带来的收益仍然存在。
4.3 进一步扩展:工具集成、多任务、协同 RL
在多轮 RL 框架基础上,有工作进一步将 Text-to-SQL agent 与其他工具结合,如检索、多模态解释器或代码执行器,通过 RL 学习何时调用何种工具,并借助执行反馈优化策略。同时,也出现了将 Text-to-SQL 任务拆分为 schema linking 与 SQL 生成两阶段、并用 cooperative RL 协同优化两个子 agent 的工作,尤其是在小模型和资源受限场景下。[14](#14)[15](#15)
这些扩展方向表明,多轮 RL 与 agent 框架天然适合承载"工具增强型 NL2SQL",使得模型可以在更复杂的数据与任务环境中运作。
五、细粒度评估与奖励机制:从二元执行到 rubric-based 奖励
5.1 二元执行奖励的局限
传统 RL+NL2SQL 工作多依赖"SQL 是否执行成功、结果是否正确"这一二元信号作为奖励,这在早期小模型场景中尚可接受,但在面对长 SQL、多表 joins、复杂嵌套查询时,往往过于稀疏,难以为模型提供足够的学习信号。此外,执行结果往往无法区分"结构接近但有小错误"的候选与"完全无关"的候选,导致奖励无法指导模型在结构空间中做细致调整。[1](#1)[5](#5)
5.2 Rubric-based 与 critique-style 奖励
为解决上述问题,近年的一些工作引入了基于 rubric 的细粒度评估与奖励机制:
- RuCo-C 等方法提出使用生成式 judge,为每个查询自动构建评价量表和批注,从而可以对 SQL 的语义正确性、结构合理性和风格规范等多个维度进行打分。[9](#9)[10](#10)
- 在 RL 训练中,这类 judge 可以为每个候选 SQL 提供更稠密的 reward,甚至对错误类型进行区分,使模型在一步步优化中获得更具体的指导,而不仅仅是"对/错"信号。[10](#10)[9](#9)
5.3 结构相似度与局部奖励
SQL-Trail 的实验表明,以 bigram similarity 为代表的结构相似度 reward 是其六项奖励中收益最大的单项,有效稳定了训练过程。这说明:[8](#8)
- 仅凭执行结果难以捕捉"离正确 SQL 还差多远",而结构相似度提供了一个连续的、与目标 SQL 接近程度相关的信号。
- 在多轮 RL 框架下,结合同步记录中间候选 SQL,可以为每一步的结构调整提供局部奖励,进一步提升学习效率。[4](#4)[8](#8)
综上,细粒度评估与多维奖励正在逐步替代单一执行奖励,成为 RL+NL2SQL 的重要趋势。
六、其它相关方向:问题生成、schema 检索与间接 RL
强化学习在 Text-to-SQL 生态中并不局限于"直接优化 SQL 生成器"。还有一些工作利用 RL 改进与 NL2SQL 相关的其他环节:
-
问题/SQL 对生成与数据增强:
- 有工作提出采用 in-context reinforcement learning 框架优化问题生成模块,以产生更加复杂和多样的合成查询,从而改进后续 Text-to-SQL 训练的数据分布和难度结构。[11](#11)
-
schema 检索与子库选择:
- 在工业级大规模数据库环境下,经常需要先从成千上万张表中检索相关子 schema,再交给 LLM 进行 SQL 生成。部分工作尝试使用 RL 优化检索策略,使其在复杂环境下具有更高召回率和效率。[11](#11)
-
协同/多智能体 RL:
- 在小模型场景下,有研究提出将 Text-to-SQL 任务拆分为 schema linking 与 SQL generation 两个子任务,分别由两个 agent 负责,并使用 cooperative RL 联合优化,从而提高整体性能和可解释性。[14](#14)
这些方向虽然不直接修改主 SQL 生成器,但通过改善训练数据、检索质量和子模块协同,对 NL2SQL 系统整体性能有间接但重要的贡献。
七、当前研究的主要挑战
尽管 RL 在 NL2SQL 中已经展示出显著潜力,但综合现有文献与实践,总体上仍面临若干核心挑战:
-
数据与算力成本:
- 尽管 SQL-R1 和 SQL-Trail 等方法强调"数据高效"(如使用几千条样本达到接近或超过闭源模型的性能),但在实际实现中,执行环境搭建、reward 计算和多轮 roll-out 仍然昂贵。[6](#6)[5](#5)[4](#4)
-
训练稳定性与可复现性:
- 多项 reward 与复杂交互流程增加了训练不稳定的可能性,不同实现细节(如错误处理、timeout 设定、SQL 引擎版本)都可能对结果产生显著影响,给复现带来困难。[4](#4)[8](#8)[3](#3)
-
评测维度不足:
- 现有基准多聚焦于整体 EX/EM,对多轮 agent 的"思考路径质量""交互效率""鲁棒性"等缺乏统一评测标准,限制了不同 RL 框架间的客观比较。[2](#2)[1](#1)
-
安全性与边界控制:
- 多轮 RL agent 在真实数据库环境中探索时,可能触发代价高昂或危险的查询操作;如何在保障安全与资源可控的前提下进行 RL 训练,是实际部署中必须解决的问题。[3](#3)
-
与大模型对齐的关系:
- 对于极大规模闭源模型而言,如何在不访问其参数的条件下,通过 RL 或交互式对齐进一步提升 NL2SQL 能力,仍然是开放问题;同时,有必要研究 RL 对模型对齐特性的长期影响(例如是否会产生过拟合特定 schema 的偏差)。
八、未来研究方向与个人选题空间
综合现有工作,可以看到强化学习在 NL2SQL 中已经从"单纯提升指标的小技巧"发展为"重新定义任务范式的关键手段",特别是在以下几个方向上:
-
多轮交互框架与难度感知控制:
- SQL-Trail、SkyRL-SQL 等工作表明,多轮 RL 能够显著提升复杂查询和 OOD 场景下的表现,即便在单轮评估模式下仍有收益。[8](#8)[4](#4)[3](#3)
- 未来可以进一步研究更加精细的难度估计、turn 分配策略以及与人类偏好/交互体验对齐的奖励设计。
-
细粒度奖励与可解释评估:
- rubrics-based judge、结构相似度 reward 等方向提示,细粒度、可解释的奖励不仅改善训练,还可以加深对模型错误模式的理解。[9](#9)[10](#10)[8](#8)
- 在 NL2SQL 领域,构建针对 SQL 结构、schema 使用、错误类型等维度的系统性评估与奖励框架,是一个有潜力的研究课题。
-
小模型 + RL 的资源受限场景:
- 多个工作展示了在中小模型和小数据集上的显著提升,这对于边缘部署、企业内网和算力受限环境尤为重要。[12](#12)[3](#3)
- 结合 parameter-efficient tuning、offline RL 或 imitation+RL 混合方法,可能进一步降低成本、提高稳定性。
-
多模块与多智能体协同:
- 将 Text-to-SQL 任务拆解为检索、schema linking、SQL 生成、结果解释等子任务,并用协作式 RL 统一优化,是一个自然的演进方向。[15](#15)[14](#14)[11](#11)
-
评测标准与开放基准的建设:
- 在现有 Spider/BIRD 等基准之上,构建专门针对 RL+NL2SQL 的评测子集,如多轮交互能力、错误恢复能力、资源/延迟约束下的表现等,将有助于推动这一方向的系统性发展。[2](#2)[1](#1)
对于希望在"强化学习 + NL2SQL"方向做综述或后续研究的学生而言,可以从上述几个维度中选择一个切口:例如,专注于"多轮交互 RL 框架的奖励设计与评测方法",或者"细粒度 rubric-based 奖励在 Text-to-SQL 中的应用",在现有工作的基础上做更系统的整理与分析,再逐渐延伸到具体方法创新。
九、结论
强化学习在 NL2SQL/Text-to-SQL 领域已经从早期的小模型执行奖励微调,发展到围绕 LLM 的单轮执行对齐、多轮交互式推理和细粒度评测与奖励的多种形态。
- SQL-R1 代表了单阶段、复合奖励驱动的 NL2SQL 推理模型,在 Spider 和 BIRD 等基准上取得接近或超过闭源大模型的性能;
- SQL-Trail 和 SkyRL-SQL 等多轮 RL agent 则展示了在复杂查询和 OOD 场景下,多轮环境交互与难度感知控制的巨大价值。
- 与此同时,以 rubric-based judge、结构相似度奖励为代表的细粒度评估方法,正在弥补传统二元执行奖励的不足,为 RL 提供更稠密、更可解释的优化信号。[10](#10)[9](#9)[5](#5)[6](#6)[4](#4)[8](#8)[3](#3)
尽管存在数据与算力成本、训练稳定性、安全性与评测标准等挑战,现有工作已经清晰地表明:
- 在复杂数据库环境下,单纯依赖一次性生成难以满足实际需求,RL 尤其是多轮交互式 RL,为构建更鲁棒、更智能的 NL2SQL agent 提供了新的技术路径。
- 后续研究可以在奖励设计、多轮交互策略、细粒度评估框架以及小模型/资源受限场景等方向继续深入,为这一交叉领域提供更系统、更可落地的解决方案。
References
-
Text-to-SQL Empowered by Large Language Models - 作者:D Gao · 被引用次数:673 --- A Survey on Deep. Learning Approaches for Text-to-SQL. VLDB J ... Seq2SQL: Ge... ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
A Survey on Employing Large Language Models for Text-to ... - 作者:L Shi · 2025 · 被引用次数:120 --- Their findings demonstrate that generative language models trained on ... ↩︎ ↩︎ ↩︎
-
Text-to-SQL just got a lot better with RL - SkyRL-SQL uses a multi-turn RL framework where the agent learns to probe the database, observe feedb... ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
SQL-Trail: Multi-Turn Reinforcement Learning with Interleaved ... - Our main contributions are as follows: (1) Unified Multi-turn RL Training Framework: We present the ... ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
Training Natural Language to SQL Reasoning Model By ... - arXiv.org - In this work, we propose SQL-R1, a novel NL2SQL reasoning model trained via reinforcement learning (... ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
SQL-R1: Training Natural Language to SQL Reasoning Model By ... - Key Results: SQL-R1 achieves execution accuracy of 88.6% on the Spider benchmark and 67.1% on the BI... ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
SQL-R1: Training Natural Language to SQL Reasoning ... - NeurIPS - In existing experiments, SQL-R1 achieves execution accuracy of 88.6% and 67.1% on the benchmark Sp... ↩︎ ↩︎ ↩︎
-
[Literature Review] SQL-Trail: Multi-Turn Reinforcement Learning ... - Multi-turn Reward Design: Unlike sparse binary execution rewards, SQL-TRAIL employs a six-term, rule... ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
Fine-Grained Reinforcement Learning for Text-to-SQL with ... - 作者:G Wang · 2025 · 被引用次数:1 --- Our framework first automatically generates query-specific evaluation r... ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
Fine-Grained Reinforcement Learning for Text-to-SQL with ... - 作者:G Wang · 2025 · 被引用次数:1 --- Our framework first automatically generates query-specific evaluation r... ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
In-Context Reinforcement Learning with Retrieval ... - 作者:R Toteja · 2025 · 被引用次数:15 --- Text-to-SQL simplifies database interactions by enabling non-experts... ↩︎ ↩︎ ↩︎ ↩︎
-
IBM/sql-rl-gen - The SQL-RL-GEN is an algorithm based on a Reinforcement Learning approach with a reward function gen... ↩︎ ↩︎
-
[2601.17699] SQL-Trail: Multi-Turn Reinforcement Learning ... - arXiv - To address this limitation, we introduce SQL-Trail, a multi-turn reinforcement learning (RL) agentic... ↩︎
-
Enhanced Text-to-SQL using cooperative reinforcement ... - This paper proposes a cooperative reinforcement learning (CRL) framework for Text-to-SQL that explic... ↩︎ ↩︎ ↩︎
-
Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL ... - We first formulate the task as a sequential decision-making process, followed by our reward design a... ↩︎ ↩︎