新研究：纯强化学习可激发大模型高级推理能力

bobz9652025-09-18 9:40

近日，《自然》期刊发表的一项研究展示了一种通过纯强化学习（RL）来提升大型语言模型（LLM）推理能力的新方法。该研究由DeepSeek-AI团队主导，其核心在于奖励机制仅依据最终答案的正确性 （瞄定结果），而无需人类提供预先标记的推理过程。通过这种方式，模型能够"自我演进"，自发学习并形成自我反思、验证和动态策略调整等高级推理模式。

实验结果表明，经过该框架训练的DeepSeek-R1模型在数学、编程竞赛及STEM等可验证任务上表现卓越，其性能超越了依赖人类示范进行监督学习的同类模型。这项工作表明，通过设计合理的激励机制，AI有潜力探索并发展出超越人类范本的、更优越的推理路径，为构建更强大的通用人工智能提供了新思路。