字节Seed数学新模型,SOTA了

不仅能达 IMO 银牌水准,更能解决普特南数学竞赛难题,甚至超越顶尖模型 o4-mini!

字节发布全新复杂数学解决模型------Seed-Prover

该模型全面超越了谷歌的 AlphaGeometry2,并在 MiniF2F 数据集上实现了惊人的 100% 正确率。

不仅如此,Seed-Prover 还展现了其卓越的泛化能力:

  • 成功解决了 78.1% 的历年 IMO 难题

  • 普特南数学竞赛中的成绩达到其他主流模型的 4 倍;

  • 在 MiniCTX-2 数据集上,以 81.8% 的高正确率远超基准模型 o4-mini。

对此,前谷歌成员 Deedy Das 惊叹道:字节真不愧是唯一一家专为 IMO 发表完整论文的 AI 实验室!

Seed-Prover 模型框架

Seed-Prover 是一个专注于使用 Lean 4 进行形式化推理的大型语言模型。

Lean 4 允许用户精确定义数学对象和定理,并通过机器自动验证推理步骤的严谨性与正确性。

相较于先前的研究,Seed-Prover 最显著的区别在于采用了引理式证明作为证明范式,从而将引理置于推理过程的核心。

简单来说,就是在进行推理时,先要求模型生成一些有用的引理,每个引理由 "lemma" 关键字引入 ,然后再使用 "theorem" 通过应用生成的引理来生成主要证明。

这种方法具有几个关键优势:

1、它可以清晰地识别已成功证明的引理和需要进一步完善的引理。

2、由于引理是模块化的,它们可以独立编译、独立存储和自由组合。

3、证明引理的过程可能为模型提供灵感,以证明其他未证引理或解决主要问题。

为了实现 Seed-Prover 的工作流程,研究人员为每个难题建立了一个引理池,存储来自所有推理运行的综合数据,包括引理陈述、引理名称、完整证明、证明难度和依赖关系。

根据可用的推理资源和问题难度,字节还开发了三个级别的策略:轻量推理、中等推理和重量级推理。

由于 Lean 在几何支持方面存在不足,Seed-Prover 集成了一个专用的几何推理引擎 Seed-Geometry

它采用了前向链推理的引擎架构:即系统通过检查适用的规则来推导所有已知事实,直到得出结论。

此外,Seed-Geometry 还具有反向追踪事实依赖关系的能力,能够识别一个几何问题中最小的依赖关系结构,从而将问题本身的上下文与解决该问题所需的辅助构造有效区分开来。

基于上述工作,Seed-Geometry 建立了一个包含 2.3 亿个需要辅助构造的独特几何问题的库。

这是通过利用过去 20 多年数学奥林匹克竞赛的统计数据,并在其专用领域特定语言定义的几何空间中进行广泛搜索实现的。

基于这一专属几何数据训练得到的 Seed 模型,成为了一个高效的神经 - 符号混合几何证明器

它可以补全缺失的辅助构造元素,并借助几何推理引擎,按步骤进行前向推理,最终完成整个几何问题的形式化证明。

达 IMO 银牌水准

研究团队使用 Seed-Prover 与 Seed-Geometry 参加了 IMO 2025,完整解决了 6 道题中的 4 道以及一道题的部分证明,在比赛规定时间内达到了 IMO 银牌水准。

根据 IMO-AG-50 的统计方法,在 2000 年至 2024 年 IMO 几何问题中,Seed-Geometry (SG) 解决了 43 道题,比 AlphaGeometry 2 (AG2) 多解决 1 道。

对于 2000 年至 2022 年难度大的多的 IMO 候选题中的几何题,AlphaGeometry 2 解决了 19 道,而 Seed-Geometry 解决了 22 道。

此外,值得注意的是,Seed-Geometry 还在 2 秒内解出了 IMO 2025 第 2 题。

除此之外,对于 MiniF2F 测试集,Seed-Prover 达到了几乎百分百的正确率。

*参考链接:

1\][x.com/deedydas/st...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Fdeedydas%2Fstatus%2F1951829325839499753 "https://x.com/deedydas/status/1951829325839499753") \[2\][www.alphaxiv.org/pdf/2507.23...](https://link.juejin.cn?target=https%3A%2F%2Fwww.alphaxiv.org%2Fpdf%2F2507.23726 "https://www.alphaxiv.org/pdf/2507.23726")* **欢迎在评论区留下你的想法!** --- **完** ---

相关推荐
GoGeekBaird5 小时前
想在AI 时代做点东西,GoHumanLoop阶段性总结
github·agent·ai编程
大熊猫侯佩8 小时前
斯塔克工业技术日志:用基础模型打造 “战甲级” 结构化 AI 功能
ai编程·swift·apple
lecepin9 小时前
AI Coding 资讯 2025.8.27
前端·ai编程
柿蒂10 小时前
从动态缩放自定义View,聊聊为什么不要把问题复杂化
android·ai编程·android jetpack
不想取名5612 小时前
VSCode MCP体验
ai编程
量子位12 小时前
小扎高薪挖来的人又跳回OpenAI了!首席科学家赵晟佳也要回去
openai·ai编程
量子位12 小时前
马斯克星舰试验再创历史!3次爆炸3次推迟终成功,顺利完成太空载荷部署
ai编程
用户307429716715812 小时前
Spring AI实战:基于ElevenLabs 实现文本转语音的实时音频流
java·spring boot·ai编程
gauch13 小时前
vscode 调试 Go 的配置解释(photoprism / Docker / 远程调试 / Delve)
后端·ai编程·visual studio code
腾讯云云开发14 小时前
AI编程能做什么?9个优秀案例,手把手图文教程,部分实战作品已开源
ai编程·游戏开发·小程序·云开发