字节Seed数学新模型,SOTA了

不仅能达 IMO 银牌水准,更能解决普特南数学竞赛难题,甚至超越顶尖模型 o4-mini!

字节发布全新复杂数学解决模型------Seed-Prover

该模型全面超越了谷歌的 AlphaGeometry2,并在 MiniF2F 数据集上实现了惊人的 100% 正确率。

不仅如此,Seed-Prover 还展现了其卓越的泛化能力:

  • 成功解决了 78.1% 的历年 IMO 难题

  • 普特南数学竞赛中的成绩达到其他主流模型的 4 倍;

  • 在 MiniCTX-2 数据集上,以 81.8% 的高正确率远超基准模型 o4-mini。

对此,前谷歌成员 Deedy Das 惊叹道:字节真不愧是唯一一家专为 IMO 发表完整论文的 AI 实验室!

Seed-Prover 模型框架

Seed-Prover 是一个专注于使用 Lean 4 进行形式化推理的大型语言模型。

Lean 4 允许用户精确定义数学对象和定理,并通过机器自动验证推理步骤的严谨性与正确性。

相较于先前的研究,Seed-Prover 最显著的区别在于采用了引理式证明作为证明范式,从而将引理置于推理过程的核心。

简单来说,就是在进行推理时,先要求模型生成一些有用的引理,每个引理由 "lemma" 关键字引入 ,然后再使用 "theorem" 通过应用生成的引理来生成主要证明。

这种方法具有几个关键优势:

1、它可以清晰地识别已成功证明的引理和需要进一步完善的引理。

2、由于引理是模块化的,它们可以独立编译、独立存储和自由组合。

3、证明引理的过程可能为模型提供灵感,以证明其他未证引理或解决主要问题。

为了实现 Seed-Prover 的工作流程,研究人员为每个难题建立了一个引理池,存储来自所有推理运行的综合数据,包括引理陈述、引理名称、完整证明、证明难度和依赖关系。

根据可用的推理资源和问题难度,字节还开发了三个级别的策略:轻量推理、中等推理和重量级推理。

由于 Lean 在几何支持方面存在不足,Seed-Prover 集成了一个专用的几何推理引擎 Seed-Geometry

它采用了前向链推理的引擎架构:即系统通过检查适用的规则来推导所有已知事实,直到得出结论。

此外,Seed-Geometry 还具有反向追踪事实依赖关系的能力,能够识别一个几何问题中最小的依赖关系结构,从而将问题本身的上下文与解决该问题所需的辅助构造有效区分开来。

基于上述工作,Seed-Geometry 建立了一个包含 2.3 亿个需要辅助构造的独特几何问题的库。

这是通过利用过去 20 多年数学奥林匹克竞赛的统计数据,并在其专用领域特定语言定义的几何空间中进行广泛搜索实现的。

基于这一专属几何数据训练得到的 Seed 模型,成为了一个高效的神经 - 符号混合几何证明器

它可以补全缺失的辅助构造元素,并借助几何推理引擎,按步骤进行前向推理,最终完成整个几何问题的形式化证明。

达 IMO 银牌水准

研究团队使用 Seed-Prover 与 Seed-Geometry 参加了 IMO 2025,完整解决了 6 道题中的 4 道以及一道题的部分证明,在比赛规定时间内达到了 IMO 银牌水准。

根据 IMO-AG-50 的统计方法,在 2000 年至 2024 年 IMO 几何问题中,Seed-Geometry (SG) 解决了 43 道题,比 AlphaGeometry 2 (AG2) 多解决 1 道。

对于 2000 年至 2022 年难度大的多的 IMO 候选题中的几何题,AlphaGeometry 2 解决了 19 道,而 Seed-Geometry 解决了 22 道。

此外,值得注意的是,Seed-Geometry 还在 2 秒内解出了 IMO 2025 第 2 题。

除此之外,对于 MiniF2F 测试集,Seed-Prover 达到了几乎百分百的正确率。

*参考链接:

1\][x.com/deedydas/st...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Fdeedydas%2Fstatus%2F1951829325839499753 "https://x.com/deedydas/status/1951829325839499753") \[2\][www.alphaxiv.org/pdf/2507.23...](https://link.juejin.cn?target=https%3A%2F%2Fwww.alphaxiv.org%2Fpdf%2F2507.23726 "https://www.alphaxiv.org/pdf/2507.23726")* **欢迎在评论区留下你的想法!** --- **完** ---

相关推荐
都叫我大帅哥11 分钟前
🌟 LangChain回调机制全解析:从入门到实战,打造你的AI智能小助手
python·langchain·ai编程
zzywxc7871 小时前
深入探讨AI在测试领域的三大核心应用:自动化测试框架、智能缺陷检测和A/B测试优化,并通过代码示例、流程图和图表详细解析其实现原理和应用场景。
运维·人工智能·低代码·架构·自动化·流程图·ai编程
一只韩非子10 小时前
AI时代,程序员如何优雅地搞定页面设计?
前端·ai编程
cos13 小时前
我的 Claude Code 使用小记
ai编程·claude
GitLqr13 小时前
AI洞察 | 好酷!国产模型在 电影、3D、TTS 领域取得巨大进步!
aigc·ai编程·虚拟现实
子昕14 小时前
CodeBuddy实测:腾讯这回没忽悠人,确实挺能打的
ai编程
知其然亦知其所以然14 小时前
ChatGPT太贵?教你用Spring AI在本地白嫖聊天模型!
后端·spring·ai编程
小徐_233315 小时前
AI开发小程序无从下手?CodeBuddy:我来助你!
ai编程·codebuddy
量子位16 小时前
陶哲轩经费被断供,在线发帖自证数学有用
ai编程