Google DeepMind Aletheia：完全自主研究的数学 Agent 解读

Google DeepMind Aletheia 在 IMO-ProofBench Advanced 数据集中以 ~91.9% 成绩遥遥领先。

针对美国数学奥林匹克 2025 难题表现也远超基线系统。在内部更难的 benchmark 上表现超过旧版推理模型，虽仍有差异但已领先过去基线。

最近关于 Aletheia 的讨论，有点熟悉的味道。

标题里写着"AI 数学家"，评论区在问"是不是要取代数学家了？是不是已经能自动搞科研了？"

我认真研究了下 Aletheia 的论文和数据集，把我学习到的关键架构和落地价值做了梳理，也正是本篇文章的内容。

一、DeepMind Aletheia 的来时路

把时间线拉长看，会发现 Google DeepMind 在这个方向上已经蓄力很久了。

在 2016 年推出 AlphaGo ，就已经开始研究一个问题：如何在一个规则完备、评价函数明确的系统里，优化决策路径？

棋盘是离散的，胜负可判定，搜索空间巨大但结构清晰，那是一种理想的策略优化环境。

DeepMind 那套"神经网络 + 搜索"的方法，从一开始也不是为了围棋。它在尝试验证一个想法 ------ 如果一个问题能被严格描述、每一步都能被判断对错，那"天赋"就可以用计算替代。

到了2024年发布的 AlphaGeometry ，问题变成了 ------ 数学推理是否也能被放进这种规则封闭系统？

AlphaGeometry 的关键设计在于：

LLM 生成辅助线候选
符号几何系统进行约束验证
搜索机制进行回溯与扩展

这里第一次看到在数学推理这个场景下，LLM 不负责判断对错，而是负责提出可能性，真正的逻辑正确性由结构系统兜底。

这个节点非常重要，因为 Google 已经开始把数学推理放到一个可验证的循环里了。

2024 下半年的 AlphaProof 则把战场搬进 Lean 等形式系统，问题变成了 ------ 如果几何可以结构化，那整个数学是否可以形式化到机器级别？

AlphaProof 进入 Lean 等形式系统，彻底收紧表达空间：

每一步推理必须 machine-checkable
类型系统强约束
模糊语言彻底失效
证明不再"看起来合理"，而是必须通过验证

同时引入强化学习优化策略路径，使系统不只是会写证明，而是学会选择 tactic、分解目标、评估分支价值。

从这一步开始，DeepMind 在做的越来越清晰，把数学行为变成一个可以调度的搜索问题。

Aletheia 正是这个路径的延伸，也取得了当前最亮眼的成绩。

二、Aletheia 真正值得讨论的地方

如果只说它能自主提出 conjecture 并证明，还是太轻了。

Aletheia 最硬的点有三个：闭环、结构、调度。

如果这个闭环真的稳定运行，那数学研究将真正脱离人类的时间尺度。

1. 它真正做成的，是一个能跑起来的研究闭环

大多数"数学 AI"系统，本质是输入题目→输出答案。

Aletheia 更像一个实验室管线，把它拆开看，最小闭环大概长这样：

提出猜想：从已有理论、失败路径、或结构模式里产生命题
尝试证明：生成证明草稿、选择引理、分解目标
形式化校验：进 proof assistant，能过就入库，过不了就报错
错误驱动修复：根据报错回滚、补 lemma、换分解方式、重写 conjecture
更新知识与策略：把新产出的 theorem / lemma 加回系统，影响下一轮生成与搜索

这里最关键的是，失败不是答得不好，而是硬错误信号。这让系统有了工程上真正可用的反馈回路。

你可以把它理解成 LLM 负责乱枪打鸟的创造力，形式系统负责枪响之后到底有没有打中。

2. Aletheia 的核心不是模型，是中间表示（IR）与验证接口

很多人看见数学评测有刷新高分了，第一反应是：又是更大更强的模型。

但在 formal math 里，决定系统上限的往往不是参数量，而是你怎么表示一个定理、一个证明状态？你怎么把"想法"落到可检查的语法树上？你怎么把 proof assistant 的反馈变成可学习信号？

换句话说，Aletheia 更像一个"数学版编译器 + 调试器 + 搜索器"的组合体。

这里面至少要有一个很重的中间层：

Theorem Graph / Lemma Graph：定理与引理的依赖关系图
Goal State 表示：当前 proof state 的结构化描述（目标、假设、类型约束）
Tactic / Step 表示：可执行的证明动作空间（类似 AlphaProof 的 action space）

否则它再聪明也只能"写作文式证明"，落地不了。

3. 为什么说它工程意义大于成绩意义

成绩只是结果，工程意义是可复用的方法。

Aletheia 如果真的具备上述三层能力，意味着：

数学研究可以被拆成"动作空间 + 反馈 + 策略优化"的范式
形式系统把正确性从"人类评审"变成"机器裁决"
LLM 从裁判退到"候选生成器"，减少幻觉的破坏半径

这条路线的价值在于，它把"研究"从一个抽象的人类行为，落实到一个能被软件系统实现的过程。

换个话说，它让"科研"这件事开始有了像 CI/CD 一样的流水线味道------提出、验证、失败、修复、合并。

三、研究行为被工程化之后，会发生什么？

过去数学界的瓶颈之一，是验证成本。

一个复杂证明要花数月甚至数年被同行确认。人类评审的时间是稀缺资源。

形式系统把"正确性"从人类判断，变成机器判断。当验证开始不再是瓶颈，生成速度就会成为主变量。

你可以想象一个系统，每天扩展定理图、产出大量中间引理、自动整理依赖结构...

它未必立刻解决重大难题，但它会不断填充理论空间。

规模化的研究输出，会改变什么？

我猜首先会改变节奏。

数学界的节奏长期建立在"人类验证能力"之上。当验证被机器托管，理论扩张的速度会明显提高。 那时，真正稀缺的资源，不再是证明能力，而是选题能力与理论组织能力。

当命题生成速度超过人类阅读速度时，学科的节奏会断裂。

写在最后

如果你一样在做教育+AI 方向，我可以很确定地说：未来纯文本解题型的 AI 产品，会越来越难以生存。

当形式系统接入、验证能力标准化，只做"讲解步骤"的产品会逐渐边缘化。

未来有壁垒的产品，很可能具备三点：

结构中间层：不是只输出文本，而是构造可执行对象
验证能力内置：机器校验成为默认功能
探索模式支持：允许学生提出 conjecture、测试假设、看到失败反馈

教学系统会越来越像一个小型 theorem environment，而不是问答机器人。

不过这条路并不轻松，目前来看它要求产品至少具备 DSL 或形式化表达能力，加上可执行约束系统，还需要与证明器或验证引擎的接口。

但如果 Aletheia 这种方向持续推进，这会成为长期趋势。