Google DeepMind Aletheia 在 IMO-ProofBench Advanced 数据集中以 ~91.9% 成绩遥遥领先。
针对美国数学奥林匹克 2025 难题表现也远超基线系统。在内部更难的 benchmark 上表现超过旧版推理模型,虽仍有差异但已领先过去基线。


最近关于 Aletheia 的讨论,有点熟悉的味道。
标题里写着"AI 数学家",评论区在问"是不是要取代数学家了?是不是已经能自动搞科研了?"
我认真研究了下 Aletheia 的论文和数据集,把我学习到的关键架构和落地价值做了梳理,也正是本篇文章的内容。
一、DeepMind Aletheia 的来时路
把时间线拉长看,会发现 Google DeepMind 在这个方向上已经蓄力很久了。
在 2016 年推出 AlphaGo ,就已经开始研究一个问题:如何在一个规则完备、评价函数明确的系统里,优化决策路径?
棋盘是离散的,胜负可判定,搜索空间巨大但结构清晰,那是一种理想的策略优化环境。
DeepMind 那套"神经网络 + 搜索"的方法,从一开始也不是为了围棋。它在尝试验证一个想法 ------ 如果一个问题能被严格描述、每一步都能被判断对错,那"天赋"就可以用计算替代。
到了2024年发布的 AlphaGeometry ,问题变成了 ------ 数学推理是否也能被放进这种规则封闭系统?
AlphaGeometry 的关键设计在于:
- LLM 生成辅助线候选
- 符号几何系统进行约束验证
- 搜索机制进行回溯与扩展
这里第一次看到在数学推理这个场景下,LLM 不负责判断对错,而是负责提出可能性,真正的逻辑正确性由结构系统兜底。
这个节点非常重要,因为 Google 已经开始把数学推理放到一个可验证的循环里了。
2024 下半年的 AlphaProof 则把战场搬进 Lean 等形式系统,问题变成了 ------ 如果几何可以结构化,那整个数学是否可以形式化到机器级别?
AlphaProof 进入 Lean 等形式系统,彻底收紧表达空间:
- 每一步推理必须 machine-checkable
- 类型系统强约束
- 模糊语言彻底失效
- 证明不再"看起来合理",而是必须通过验证
同时引入强化学习优化策略路径,使系统不只是会写证明,而是学会选择 tactic、分解目标、评估分支价值。
从这一步开始,DeepMind 在做的越来越清晰,把数学行为变成一个可以调度的搜索问题。
Aletheia 正是这个路径的延伸,也取得了当前最亮眼的成绩。

二、Aletheia 真正值得讨论的地方
如果只说它能自主提出 conjecture 并证明,还是太轻了。
Aletheia 最硬的点有三个:闭环、结构、调度。
如果这个闭环真的稳定运行,那数学研究将真正脱离人类的时间尺度。
1. 它真正做成的,是一个能跑起来的研究闭环
大多数"数学 AI"系统,本质是输入题目→输出答案。
Aletheia 更像一个实验室管线,把它拆开看,最小闭环大概长这样:
- 提出猜想:从已有理论、失败路径、或结构模式里产生命题
- 尝试证明:生成证明草稿、选择引理、分解目标
- 形式化校验:进 proof assistant,能过就入库,过不了就报错
- 错误驱动修复:根据报错回滚、补 lemma、换分解方式、重写 conjecture
- 更新知识与策略:把新产出的 theorem / lemma 加回系统,影响下一轮生成与搜索
这里最关键的是,失败不是答得不好,而是硬错误信号。这让系统有了工程上真正可用的反馈回路。
你可以把它理解成 LLM 负责乱枪打鸟的创造力,形式系统负责枪响之后到底有没有打中。

2. Aletheia 的核心不是模型,是中间表示(IR)与验证接口
很多人看见数学评测有刷新高分了,第一反应是:又是更大更强的模型。
但在 formal math 里,决定系统上限的往往不是参数量,而是你怎么表示一个定理、一个证明状态?你怎么把"想法"落到可检查的语法树上?你怎么把 proof assistant 的反馈变成可学习信号?
换句话说,Aletheia 更像一个"数学版编译器 + 调试器 + 搜索器"的组合体。
这里面至少要有一个很重的中间层:
- Theorem Graph / Lemma Graph:定理与引理的依赖关系图
- Goal State 表示:当前 proof state 的结构化描述(目标、假设、类型约束)
- Tactic / Step 表示:可执行的证明动作空间(类似 AlphaProof 的 action space)
否则它再聪明也只能"写作文式证明",落地不了。
3. 为什么说它工程意义大于成绩意义
成绩只是结果,工程意义是可复用的方法。
Aletheia 如果真的具备上述三层能力,意味着:
- 数学研究可以被拆成"动作空间 + 反馈 + 策略优化"的范式
- 形式系统把正确性从"人类评审"变成"机器裁决"
- LLM 从裁判退到"候选生成器",减少幻觉的破坏半径
这条路线的价值在于,它把"研究"从一个抽象的人类行为,落实到一个能被软件系统实现的过程。
换个话说,它让"科研"这件事开始有了像 CI/CD 一样的流水线味道------提出、验证、失败、修复、合并。
三、研究行为被工程化之后,会发生什么?
过去数学界的瓶颈之一,是验证成本。
一个复杂证明要花数月甚至数年被同行确认。人类评审的时间是稀缺资源。
形式系统把"正确性"从人类判断,变成机器判断。当验证开始不再是瓶颈,生成速度就会成为主变量。
你可以想象一个系统,每天扩展定理图、产出大量中间引理、自动整理依赖结构...
它未必立刻解决重大难题,但它会不断填充理论空间。
规模化的研究输出,会改变什么?
我猜首先会改变节奏。
数学界的节奏长期建立在"人类验证能力"之上。当验证被机器托管,理论扩张的速度会明显提高。 那时,真正稀缺的资源,不再是证明能力,而是选题能力与理论组织能力。
当命题生成速度超过人类阅读速度时,学科的节奏会断裂。

写在最后
如果你一样在做 教育+AI 方向,我可以很确定地说:未来纯文本解题型的 AI 产品,会越来越难以生存。
当形式系统接入、验证能力标准化,只做"讲解步骤"的产品会逐渐边缘化。
未来有壁垒的产品,很可能具备三点:
- 结构中间层:不是只输出文本,而是构造可执行对象
- 验证能力内置:机器校验成为默认功能
- 探索模式支持:允许学生提出 conjecture、测试假设、看到失败反馈
教学系统会越来越像一个小型 theorem environment,而不是问答机器人。
不过这条路并不轻松,目前来看它要求产品至少具备 DSL 或形式化表达能力,加上可执行约束系统,还需要与证明器或验证引擎的接口。
但如果 Aletheia 这种方向持续推进,这会成为长期趋势。
延伸阅读
- Google DeepMind.
Accelerating Mathematical and Scientific Discovery with Gemini Deep Think.
Official Blog Post, 2026. - Google DeepMind.
AlphaGeometry: An Olympiad-Level AI System for Geometry.
Official Blog Post, 2024. - Google DeepMind.
Towards Autonomous Mathematical Research.
arXiv preprint, 2026.