DeepSeek-Math-V2:自验证数学推理大模型(论文详解)DeepSeekMath-V2 是由 DeepSeek-AI 开发的、面向自验证数学推理的大语言模型,它针对传统基于最终答案奖励的强化学习(RL)在数学推理中存在 “正确答案不代表正确推理” 及无法适配定理证明的局限性,通过训练准确且可信的验证器(含元验证机制以减少虚假问题识别)和以验证器为奖励模型的证明生成器(结合自验证实现迭代优化),构建 “验证器 - 生成器” 协同循环(生成器推动验证器处理更难证明,验证器通过扩展计算自动标注数据提升自身),最终在竞赛中表现优异:在IMO 2025和CMO 2024