Google DeepMind Aletheia:完全自主研究的数学 Agent 解读

Google DeepMind Aletheia 在 IMO-ProofBench Advanced 数据集中以 ~91.9% 成绩遥遥领先

针对美国数学奥林匹克 2025 难题表现也远超基线系统。在内部更难的 benchmark 上表现超过旧版推理模型,虽仍有差异但已领先过去基线。

最近关于 Aletheia 的讨论,有点熟悉的味道。

标题里写着"AI 数学家",评论区在问"是不是要取代数学家了?是不是已经能自动搞科研了?"

我认真研究了下 Aletheia 的论文和数据集,把我学习到的关键架构和落地价值做了梳理,也正是本篇文章的内容。

一、DeepMind Aletheia 的来时路

把时间线拉长看,会发现 Google DeepMind 在这个方向上已经蓄力很久了。

在 2016 年推出 AlphaGo ,就已经开始研究一个问题:如何在一个规则完备、评价函数明确的系统里,优化决策路径?

棋盘是离散的,胜负可判定,搜索空间巨大但结构清晰,那是一种理想的策略优化环境。

DeepMind 那套"神经网络 + 搜索"的方法,从一开始也不是为了围棋。它在尝试验证一个想法 ------ 如果一个问题能被严格描述、每一步都能被判断对错,那"天赋"就可以用计算替代。

到了2024年发布的 AlphaGeometry ,问题变成了 ------ 数学推理是否也能被放进这种规则封闭系统?

AlphaGeometry 的关键设计在于:

  • LLM 生成辅助线候选
  • 符号几何系统进行约束验证
  • 搜索机制进行回溯与扩展

这里第一次看到在数学推理这个场景下,LLM 不负责判断对错,而是负责提出可能性,真正的逻辑正确性由结构系统兜底。

这个节点非常重要,因为 Google 已经开始把数学推理放到一个可验证的循环里了。

2024 下半年的 AlphaProof 则把战场搬进 Lean 等形式系统,问题变成了 ------ 如果几何可以结构化,那整个数学是否可以形式化到机器级别?

AlphaProof 进入 Lean 等形式系统,彻底收紧表达空间:

  • 每一步推理必须 machine-checkable
  • 类型系统强约束
  • 模糊语言彻底失效
  • 证明不再"看起来合理",而是必须通过验证

同时引入强化学习优化策略路径,使系统不只是会写证明,而是学会选择 tactic、分解目标、评估分支价值。

从这一步开始,DeepMind 在做的越来越清晰,把数学行为变成一个可以调度的搜索问题。

Aletheia 正是这个路径的延伸,也取得了当前最亮眼的成绩。

二、Aletheia 真正值得讨论的地方

如果只说它能自主提出 conjecture 并证明,还是太轻了。

Aletheia 最硬的点有三个:闭环、结构、调度

如果这个闭环真的稳定运行,那数学研究将真正脱离人类的时间尺度。

1. 它真正做成的,是一个能跑起来的研究闭环

大多数"数学 AI"系统,本质是输入题目→输出答案。

Aletheia 更像一个实验室管线,把它拆开看,最小闭环大概长这样:

  • 提出猜想:从已有理论、失败路径、或结构模式里产生命题
  • 尝试证明:生成证明草稿、选择引理、分解目标
  • 形式化校验:进 proof assistant,能过就入库,过不了就报错
  • 错误驱动修复:根据报错回滚、补 lemma、换分解方式、重写 conjecture
  • 更新知识与策略:把新产出的 theorem / lemma 加回系统,影响下一轮生成与搜索

这里最关键的是,失败不是答得不好,而是硬错误信号。这让系统有了工程上真正可用的反馈回路。

你可以把它理解成 LLM 负责乱枪打鸟的创造力,形式系统负责枪响之后到底有没有打中。

2. Aletheia 的核心不是模型,是中间表示(IR)与验证接口

很多人看见数学评测有刷新高分了,第一反应是:又是更大更强的模型。

但在 formal math 里,决定系统上限的往往不是参数量,而是你怎么表示一个定理、一个证明状态?你怎么把"想法"落到可检查的语法树上?你怎么把 proof assistant 的反馈变成可学习信号?

换句话说,Aletheia 更像一个"数学版编译器 + 调试器 + 搜索器"的组合体。

这里面至少要有一个很重的中间层:

  • Theorem Graph / Lemma Graph:定理与引理的依赖关系图
  • Goal State 表示:当前 proof state 的结构化描述(目标、假设、类型约束)
  • Tactic / Step 表示:可执行的证明动作空间(类似 AlphaProof 的 action space)

否则它再聪明也只能"写作文式证明",落地不了。

3. 为什么说它工程意义大于成绩意义

成绩只是结果,工程意义是可复用的方法。

Aletheia 如果真的具备上述三层能力,意味着:

  • 数学研究可以被拆成"动作空间 + 反馈 + 策略优化"的范式
  • 形式系统把正确性从"人类评审"变成"机器裁决"
  • LLM 从裁判退到"候选生成器",减少幻觉的破坏半径

这条路线的价值在于,它把"研究"从一个抽象的人类行为,落实到一个能被软件系统实现的过程。

换个话说,它让"科研"这件事开始有了像 CI/CD 一样的流水线味道------提出、验证、失败、修复、合并。

三、研究行为被工程化之后,会发生什么?

过去数学界的瓶颈之一,是验证成本。

一个复杂证明要花数月甚至数年被同行确认。人类评审的时间是稀缺资源。

形式系统把"正确性"从人类判断,变成机器判断。当验证开始不再是瓶颈,生成速度就会成为主变量。

你可以想象一个系统,每天扩展定理图、产出大量中间引理、自动整理依赖结构...

它未必立刻解决重大难题,但它会不断填充理论空间。

规模化的研究输出,会改变什么?

我猜首先会改变节奏。

数学界的节奏长期建立在"人类验证能力"之上。当验证被机器托管,理论扩张的速度会明显提高。 那时,真正稀缺的资源,不再是证明能力,而是选题能力与理论组织能力。

当命题生成速度超过人类阅读速度时,学科的节奏会断裂。

写在最后

如果你一样在做 教育+AI 方向,我可以很确定地说:未来纯文本解题型的 AI 产品,会越来越难以生存。

当形式系统接入、验证能力标准化,只做"讲解步骤"的产品会逐渐边缘化。

未来有壁垒的产品,很可能具备三点:

  1. 结构中间层:不是只输出文本,而是构造可执行对象
  2. 验证能力内置:机器校验成为默认功能
  3. 探索模式支持:允许学生提出 conjecture、测试假设、看到失败反馈

教学系统会越来越像一个小型 theorem environment,而不是问答机器人。

不过这条路并不轻松,目前来看它要求产品至少具备 DSL 或形式化表达能力,加上可执行约束系统,还需要与证明器或验证引擎的接口。

但如果 Aletheia 这种方向持续推进,这会成为长期趋势。

延伸阅读

相关推荐
科技前瞻观察1 小时前
什么是循证营养?循证营养:重构健康产业信任的科学路径
人工智能
墨染天姬1 小时前
【AI】AI导游技术框架
人工智能
百家方案1 小时前
2026年AI+智慧城市全场景应用解决方案白皮书 - 全1795页下载
人工智能·ai·智慧城市·智慧交通·智慧医疗·智慧教育·智慧政务
码农葫芦侠1 小时前
如何把 AI 大语言模型接入个人项目
人工智能·ai·ai编程
?Anita Zhang1 小时前
联邦学习实战:如何在分布式场景下构建隐私保护机器学习模型
人工智能·分布式·机器学习
摘星编程2 小时前
大语言模型(Large Language Models,LLM)如何颠覆未来:深入解析应用、挑战与趋势
人工智能·语言模型·自然语言处理
Li emily2 小时前
解决了股票实时数据接口延迟问题
人工智能·fastapi
SuniaWang2 小时前
Milvus 深度解析:为 AI 而生的云原生向量数据库
数据库·人工智能·milvus
leo·Thomas2 小时前
PentAGI-(AI自动化渗透)Docker环境部署
人工智能·自动化·渗透·pentagi