ProRL:延长强化学习训练,扩展大语言模型推理边界——NeurIPS 2025论文解读一段话总结: 这篇论文来自NVIDIA团队,标题是《ProRL:延长强化学习扩展大语言模型的推理边界》,发表于NeurIPS 2025。它直击当前AI热点:强化学习(RL)在提升语言模型推理能力时,到底是真正“解锁”新策略,还是只是优化了基础模型中已有的高奖励输出?作者挑战了后者的观点,认为过去研究训练太短、任务太窄。通过“ProRL”方法,他们证明了延长RL训练能让模型发现基础模型采样中完全缺失的新推理路径,甚至在某些任务上从0%成功率飙升到100%。他们开源了1.5B参数的Nemotron-Resea