数学推理

蓝海星梦9 天前
论文阅读·人工智能·自然语言处理·数学推理·deepseek
【论文笔记】DeepSeekMath-V2: 基于自我验证的数学推理新范式原文摘要:大型语言模型在数学推理领域取得了显著进展,成为人工智能的重要测试平台,并可能对科学研究产生深远影响。通过强化学习奖励正确答案,这些模型在一年内从表现不佳提升到饱和了AIME和HMMT等定量推理竞赛的水平。然而,这种方法存在局限性:高准确率的最终答案无法保证推理过程的正确性,且对于需要严格推导的定理证明任务并不适用。为了突破这一限制,研究者提出通过自我验证来确保数学推理的全面性和严谨性,这对于解决开放性问题尤为重要。DeepSeekMath-V2通过训练一个基于大型语言模型的验证器来评估证明的正确
Sherlock Ma1 个月前
人工智能·深度学习·语言模型·自然语言处理·数学推理·deepseek
DeepSeek-Math-V2:自验证数学推理大模型(论文详解)DeepSeekMath-V2 是由 DeepSeek-AI 开发的、面向自验证数学推理的大语言模型,它针对传统基于最终答案奖励的强化学习(RL)在数学推理中存在 “正确答案不代表正确推理” 及无法适配定理证明的局限性,通过训练准确且可信的验证器(含元验证机制以减少虚假问题识别)和以验证器为奖励模型的证明生成器(结合自验证实现迭代优化),构建 “验证器 - 生成器” 协同循环(生成器推动验证器处理更难证明,验证器通过扩展计算自动标注数据提升自身),最终在竞赛中表现优异:在IMO 2025和CMO 2024
HyperAI超神经9 个月前
图像处理·人工智能·3d·数学推理·视频生成·对话语音生成·蛋白质突变
Stable Virtual Camera 重新定义3D内容生成,解锁图像新维度;BatteryLife助力更精准预测电池寿命在数字内容创作的激烈竞争中,Stability AI 正站在命运的十字路口。这家曾以 Stable Diffusion 引爆图像生成革命的公司,却因上层管理问题陷入了危机。近期,Stability AI 推出了 Stable Virtual Camera 模型,不知能否以一记重拳打破僵局。
Espresso Macchiato2 年前
llm·prompt tuning·prompt工程·math prompter·数学推理
文献阅读:MathPrompter: Mathematical Reasoning using Large Language Models这篇文章是今年3月份的时候微软提出的一篇工作,其核心的问题是优化了GPT模型在数学问题上的回答准确性。
我是有底线的