目录
字节跳动模型达IMO金牌水平

2025年12月24日,字节跳动Seed团队宣布,其新一代形式化数学推理专用模型 Seed Prover 1.5 在多项顶级测试中取得突破性成绩。该模型的核心飞跃在于采用了大规模代理式强化学习训练,这使其推理能力和效率得到全面提升。在最具标杆意义的测试中,Seed Prover 1.5仅用16.5小时,即为2025年IMO的前五道试题生成了完整且可验证的证明代码,换算成绩为35分(满分42分),稳稳达到了历届IMO竞赛的金牌分数线。
不仅如此,其强大的泛化能力在北美普特南数学竞赛中再次得到验证:它在9小时内为2025年赛题的11道题目完成了证明。更系统的评估显示,该模型在完整的普特南历史题库上解决率达88%,甚至在代表硕士和博士研究难度的Fate系列评测集上,也取得了远超以往模型的成绩。这标志着AI在结构化、高难度数学推理上,正快速逼近人类专家的顶级水平。
Seed Prover 1.5的突破,远不止于"竞赛夺金"。它代表着形式化数学------这个曾经只有少数专家掌握的艰深领域------正走向自动化与平民化。未来,数学家或许可以将繁琐的、模式化的证明细节交由此类AI处理,从而将更多精力集中于提出猜想和构建理论框架的创造性工作上。这预示着"人机协同"的数学研究新范式正在加速到来,数学发现的效率有望迎来革命性提升。
国际数学奥林匹克竞赛(IMO)历来是人类顶尖数学少年才智的试金石。然而,近年来,一个全新的"参赛者"------人工智能,正试图闯入这片圣地。形式化数学,即用计算机可验证的代码语言书写和证明定理,成为AI攻克数学难题的关键战场。谁能在此领域领先,谁就握有了打开"自动化数学研究"之门的钥匙。
全球协作挑战"忙海狸"第六数

2025年,全球在线社区"忙海狸挑战"的爱好者们,将目标共同聚焦于下一个圣杯:确定BB(6)的值。自2024年耗费40年努力最终确定BB(5)=47,176,870后,对BB(6)的追猎变得更为狂热。这项挑战的本质,是对所有6状态图灵机的行为进行宇宙级的穷举与分类。今年7月,一位名为mxdys的参与者发现了一个关键的下界,证明BB(6)至少是一个用"幂塔"表示的、远超宇宙粒子总数的不可思议的大数。
截至2025年10月,尚未判定行为的6状态图灵机数量已从2728台减少至1618台。这场全球协作的逐台排查,每一步都可能接近终极答案,也可能遭遇更深的迷雾:根据现有理论,BB(643)的值将无法在ZFC公理体系内被确定。而BB(6)是否会成为第一个在标准数学框架内"不可知"的数字?这正是整个探索最激动人心也最令人不安的悬念。
对BB(6)的追寻,绝非简单的数字收集游戏。它是一场对数学本身可判定性边界的探测试验。如果能证明BB(6)的值在ZFC系统内不可判定,那就意味着我们发现了数学基础中一个具体的、相对较小的"裂缝"。这将对数理逻辑、计算理论乃至哲学产生深远影响。无论结果如何,这场由全球爱好者驱动的草根科研,都生动展示了当代科学探索的新形态,以及人类对知识最根本极限的不懈好奇。
参考资料
1,字節跳動推新一代數學模型 推理能力效率顯著提升
https://www.exmoo.com/article/254392.html
2,Mathematicians spent 2025 exploring the edge of mathematics