【论文ing】强化学习重塑 NL2SQL:单轮对齐、多轮交互与细粒度评估的最新进展(2020–2026)自然语言到 SQL(NL2SQL / Text-to-SQL)旨在将用户的自然语言问题映射为在特定数据库上可执行的 SQL 查询,是自然语言接口数据库(NLIDB)的核心任务之一。随着大规模预训练语言模型(LLM)的出现,主流方法逐渐演化为“LLM + 提示/检索 + 轻量微调”的范式,但在复杂查询推理、跨库泛化和实际部署鲁棒性等方面仍存在明显瓶颈。强化学习(RL)因其“与环境交互、基于奖励信号优化策略”的特性,被越来越多地用于 Text-to-SQL,以更好地对齐模型行为与执行结果和系统目标。12