【论文笔记】DeepSeekMath-V2: 基于自我验证的数学推理新范式原文摘要:大型语言模型在数学推理领域取得了显著进展,成为人工智能的重要测试平台,并可能对科学研究产生深远影响。通过强化学习奖励正确答案,这些模型在一年内从表现不佳提升到饱和了AIME和HMMT等定量推理竞赛的水平。然而,这种方法存在局限性:高准确率的最终答案无法保证推理过程的正确性,且对于需要严格推导的定理证明任务并不适用。为了突破这一限制,研究者提出通过自我验证来确保数学推理的全面性和严谨性,这对于解决开放性问题尤为重要。DeepSeekMath-V2通过训练一个基于大型语言模型的验证器来评估证明的正确