数学周刊第52期(2025年12月22日-12月28日)

字节跳动模型达IMO金牌水平

2025年12月24日，字节跳动Seed团队宣布，其新一代形式化数学推理专用模型 Seed Prover 1.5 在多项顶级测试中取得突破性成绩。该模型的核心飞跃在于采用了大规模代理式强化学习训练，这使其推理能力和效率得到全面提升。在最具标杆意义的测试中，Seed Prover 1.5仅用16.5小时，即为2025年IMO的前五道试题生成了完整且可验证的证明代码，换算成绩为35分（满分42分），稳稳达到了历届IMO竞赛的金牌分数线。

不仅如此，其强大的泛化能力在北美普特南数学竞赛中再次得到验证：它在9小时内为2025年赛题的11道题目完成了证明。更系统的评估显示，该模型在完整的普特南历史题库上解决率达88%，甚至在代表硕士和博士研究难度的Fate系列评测集上，也取得了远超以往模型的成绩。这标志着AI在结构化、高难度数学推理上，正快速逼近人类专家的顶级水平。

Seed Prover 1.5的突破，远不止于"竞赛夺金"。它代表着形式化数学------这个曾经只有少数专家掌握的艰深领域------正走向自动化与平民化。未来，数学家或许可以将繁琐的、模式化的证明细节交由此类AI处理，从而将更多精力集中于提出猜想和构建理论框架的创造性工作上。这预示着"人机协同"的数学研究新范式正在加速到来，数学发现的效率有望迎来革命性提升。

国际数学奥林匹克竞赛（IMO）历来是人类顶尖数学少年才智的试金石。然而，近年来，一个全新的"参赛者"------人工智能，正试图闯入这片圣地。形式化数学，即用计算机可验证的代码语言书写和证明定理，成为AI攻克数学难题的关键战场。谁能在此领域领先，谁就握有了打开"自动化数学研究"之门的钥匙。

全球协作挑战"忙海狸"第六数

2025年，全球在线社区"忙海狸挑战"的爱好者们，将目标共同聚焦于下一个圣杯：确定BB(6)的值。自2024年耗费40年努力最终确定BB(5)=47,176,870后，对BB(6)的追猎变得更为狂热。这项挑战的本质，是对所有6状态图灵机的行为进行宇宙级的穷举与分类。今年7月，一位名为mxdys的参与者发现了一个关键的下界，证明BB(6)至少是一个用"幂塔"表示的、远超宇宙粒子总数的不可思议的大数。

截至2025年10月，尚未判定行为的6状态图灵机数量已从2728台减少至1618台。这场全球协作的逐台排查，每一步都可能接近终极答案，也可能遭遇更深的迷雾：根据现有理论，BB(643)的值将无法在ZFC公理体系内被确定。而BB(6)是否会成为第一个在标准数学框架内"不可知"的数字？这正是整个探索最激动人心也最令人不安的悬念。

对BB(6)的追寻，绝非简单的数字收集游戏。它是一场对数学本身可判定性边界的探测试验。如果能证明BB(6)的值在ZFC系统内不可判定，那就意味着我们发现了数学基础中一个具体的、相对较小的"裂缝"。这将对数理逻辑、计算理论乃至哲学产生深远影响。无论结果如何，这场由全球爱好者驱动的草根科研，都生动展示了当代科学探索的新形态，以及人类对知识最根本极限的不懈好奇。

参考资料

1，字節跳動推新一代數學模型推理能力效率顯著提升

https://www.exmoo.com/article/254392.html

2，Mathematicians spent 2025 exploring the edge of mathematics

https://www.newscientist.com/article/2507465-mathematicians-spent-2025-exploring-the-edge-of-mathematics/

数学周刊第52期(2025年12月22日-12月28日)

目录

字节跳动模型达IMO金牌水平

全球协作挑战"忙海狸"第六数

参考资料