
【新智元导读】MIT 物理学大牛 Max Tegmark 团队,再出重磅力作。他们发现:AI 能够在没有任何先验知识的情况下,完全独立地提出哈密顿物理量,或拉格朗日方程式。仅仅通过尝试解释数据,AI 就自己收敛到了这些物理原则,发现了宇宙间的奥秘!
充满想象力的 MIT 大牛团队,又有新作了!
大佬 Max Tegmark、Ziming Liu 等人在一项新研究中发现,AI 能够在没有任何先验知识的情况下,能够完全独立地提出哈密顿物理量。

不过要注意,这里的 AI 是 LNN,而非 LLM。
他们提出一种新的架构 MASS(Multiple AI Scalar Scientists),允许单个神经网络学习跨多个物理系统的理论。
MASS 在来自各种物理系统(摆或振荡器)的观测数据上进行了训练,且事先并未被告知底层的物理定律。
结果,神奇的事来了。
MASS 开发的理论,往往与已知的经典力学哈密顿或拉格朗日表述高度相似,具体取决于其分析的系统的复杂性。

也就是说,AI 仅仅通过尝试解释数据,就收敛到了这些已经成熟的物理原理!
果然 Max Tegmark 出品,必属精品。

惊人脑洞:AI 科学家大 PK,结果如何?
这项研究,源于研究者们的一个脑洞:如果两个 AI 科学家是在相同的训练数据上训练的,他们会不同意彼此的观点吗?
有趣的是,他们发现,这些 AI 科学家在学习经典物理学之后,起初可能会存在分歧,但当数据变得多样化之后,他们就会不约而同地收敛到拉格朗日 / 哈密顿这些已知的理论。
如果简单概括这项研究的几大发现,可以归结如下。
-
一个 AI 科学家能够学习对同一物理现象的多种不同解释;
-
当面对更复杂的系统时,表现出色的 AI 科学家会对其原有理论进行修正,以适应新的观测;
3.AI 科学家学到的理论具有高度相似性,这些理论通常与哈密顿或拉格朗日描 述形式非常接近;
- 在初期所学的理论更接近哈密顿动力学,但随着系统复杂性的提升,最终学习结果更趋近于拉格朗日描述,这表明在丰富的理论空间中,拉格朗日动力学仍是唯一正确的描述体系。

在论文开篇,他们抛出了这张有趣的图------AI 科学家的演化。

即使在如单摆这样简单的物理系统中,不同的 AI 科学家在从数据中学习时,也会得出不同的结果。无法解释当前数据的理论会被判定为错误。存活下来的 AI 科学家,则将面对更复杂的系统,例如双摆,并据此不断修正自己的理论以适应新的数据。最终,剩下的 AI 科学家将学到什么?
纵观人类历史,科学的进步是由好奇心推动的。
从阿基米德的浮力原理,到伽利略对运动的系统研究,到牛顿的经典力学公式,再到爱因斯坦的相对论,这些科学家通过观察提出假设,从而成为经典的科学原理。

而在今天,我们正见证着全新的范式:ML 和数据驱动方法,开始在粒子物理、天文学、材料科学和量子化学等领域取代传统的统计工具。
下一步,机器学习方法很可能就将转变为完全成熟的「AI 科学家」,以最少的人为干预来提出假设、设计实验、解释结果。
牛顿和莱布尼茨,会对同一现象(微积分)提出互补但又不同的表述。那么在架构、初始方案和训练范式上各不相同的 AI,会收敛于不同的理论公式或视角吗?
当 AI 科学家涉足更大更复杂的数据集,它们学到的理论会怎样以意想不到的方式演变?
这次,研究者在实验中,研究了不同条件下训练的多个 AI 科学家,是会在科学理论上趋于一致,还是产生分歧。
AI 不依赖物理先验,发现潜在物理规律
在论文中,团队提出了一种新方法,在几乎不依赖物理先验的前提下,通过学习一个标量函数,并利用「作用量守恒原理」,来发现潜在的物理规律。
这一思路与哈密顿神经网络(HNN)和拉格朗日神经网络(LNN)相似。
受经典力学中哈密顿描述方式的启发,HNN 将物理系统运动方程的学习任务分解为两个步骤:首先学习一个标量函数(即哈密顿量 H),然后通过哈密顿正则方程计算运动状态:

LNN 则通过改为学习拉格朗日量来规避这一问题,并通过欧拉 - 拉格朗日方程来求导:

本文关注的核心问题就是:如果模型拥有学习多种理论的自由,它最终会学到什么?
MASS 登场!
为此,团队提出了 MASS 的模型。这是一种通用框架,同样以「作用量守恒原理」为出发点,也从数据中学习一个自由形式的标量函数。
但与 LNN 和 HNN 不同,MASS 并不会预设运动方程,而是具备自行学习运动方程的能力。
MASS 背后的核心思想,就是在一个神经网络中嵌入跨多个物理系统学习与统一信息的能力。
它的目标是内化一个共享框架,从而捕捉所有数据集中所体现的基本模式。
具体来说,它通过学习一个标量函数(类似于拉格朗日量或哈密顿量),利用其导数来编码各个系统的特定动力学特征。

MASS 的工作流程如下:
-
数据输入:MASS 接收来自不同物理系统的观测数据,例如轨迹、状态或能量值
-
假说生成:为每个系统分别设立的神经网络将学习一个标量函数,描述该系统的特定动力学
-
理论推导:MASS 在所有系统间共享的最终一层会对学习到的标量函数在系统坐标(如位置、动量和 / 或速度)上的导数进行计算,推导出控制方程
-
精化与泛化:模型的输出会与真实训练数据比对以计算误差,然后通过累加、优化,获得与多物理系统观测结果一致的统一理论

实验
单个 AI 科学家
在 The Grand Design 一书中,霍金表达过他对物理的理解:只要预测结果和实验一致,多种理论框架,可以同样有效地描述物理现象。

比如,对于**无阻尼弹簧 - 质量系统,**牛顿运动定律可以解释这个系统。

但通过能量函数与守恒定律,哈密顿力学体系获得了全新的理论视角。
相比之下,即便对于简谐振荡器这类相对简单的物理系统,机器学习模型也展现出极强的数据拟合灵活性。
**这引出了一个深刻问题:如果训练单个「**AI 科学家」来研究简谐振荡系统,学习到的理论表征将呈现何种形态?
与经典的牛顿力学或哈密顿力学相比,又会有何异同?
对此,在无阻尼弹簧 - 质量系统的模拟数据上,研究团队对 MASS 进行了训练。
图 3 展示了训练结果。
可以看出,MASS 可以很容易地模拟出振子的运动轨迹,它所给出的预测具有良好的一致性和准确性。

图 3:MASS 在简单谐振子上的训练结果
那在对最后一层添加 L1 和 L2 正则化的情况下,模型是如何学习并简化理论的?
这要在训练过程中,跟踪模型中的显著权重数量****,即在 最终输出层中贡献了前 99% 总范数的权重数量。
可以观察到,随着训练步数的增加,这个数量也在减少,但最终会在 42 这个相对较大的数值上趋于稳定。
这说明有将近 42 个权重项具有显著数值,这显然远不能称为一个简单的理论。
毕竟只要 4 个参数,都能拟合出鼻子会动的大象!

图 4 描述了在相空间中,MASS 学习到的标量函数 S 与经典哈密顿函数 H 的对比。
研究发现,单个 MASS 智能体,能够成功重构出势能与动能之和的表达式。

图 4:(a)学习得到的标量函数 S 与 (b) 哈密顿量 x²+y² 的等值线对比图
**具体来说,**MASS 通常能够学习到与传统物理先验相似却存在差异的函数形式。
在图 5 中,研究者将每个激活的平均范数 E(a_i) 与对应的权重 w_i 进行了比较。
总体来看,非零权重通常对应着非零的激活范数**。**对最终预测贡献最大的激活项,和按权重范数排的前五项完全一样。
这就**说明****,**它们是 MASS 所学习理论中最关键的组成部分,对最终预测起到了重要作用。
图 5 的热力图显示出,显著项形成了三个明显的聚类。
这就说明:模型形成了某种结构化的表示方式,将不同类型的变量组合成特定模式进行预测。

总之,本节结论可以概括如下。
-
单个 AI 科学家可以非常有效地学习一个简单的系统(见图 3),而且它会随着训练深入自动筛选出重要理论部分。
-
学习到的理论结构类似于我们熟悉的物理表达式(见图 4)。
-
当模型容量增大时,单个 AI 科学家往往会学习到多个看似不同的理论(见图 5(a))。
-
不过,这些不同的理论之间往往是强相关的(见图 5(b)),实质上反映的是同一种规律。
那么,当 AI 科学家面对更复杂的物理系统时,哪些重要项会保留,哪些会消失?
AI 科学家:更复杂的系统
简谐振子系统可能对于一个机器学习模型来说太简单了------它只需要拟合 - x 就够了。
接下来,研究者探索了当 AI 科学家起初只观察单一系统,后来逐步接触到更复杂的物理系统时,会发生什么变化。
本节关注的四个具体系统:简谐振子、单摆系统、开普勒问题 / 引力势能系统、相对论简谐振子。
当面对多个系统时,AI 科学家如何稀疏化其理论(即筛选出关键项)?
又如何多样化地学习,适用于不同物理规律表达结构的?
图 6 展示了 MASS 模型在面对逐步增加复杂度的物理系统时的训练表现。

训练过程的具体安排如下:
-
在第 0 步开始,模型首先接触的是简谐振子系统;
-
到了第 10,000 步,加入了单摆系统;
-
第 20,000 步时,再加入引力势能系统(开普勒问题);
-
第 30,000 步时,引入最后一个系统------相对论简谐振子。
这个训练策略模拟了「AI 科学家」逐步暴露在越来越复杂的自然规律面前的过程,进而观察它如何在学习过程中调整和发展自己的理论结构。
可以发现如下结论。
1. 随着系统数量的增加,模型学习到的显著项数量反而减少了。
2. 随着系统数量的增加,模型学习到的理论变得更加多样化。
这说明:能同时解释多个系统的项要比解释单一或部分系统的项少得多。
第二个发现则体现在图 7 中相关性热图的右下角:随着训练系统的增多,越来越多彼此不相关的项开始出现。
有趣的是,他们还发现:当 MASS 被要求同时解释多个系统时,它最终倾向于使用几乎相同的一组项来统一建模!
这表明在多系统学习中,模型倾向于寻找通用理论表达。

多个科学家:理论融合共生
当不同科学家回答同样的问题时,似乎得出不同的理论,但其实只是同一硬币的两面(比如牛顿和莱布尼茨)。
当多个科学家去学习同样的知识呢?
可以看出,不同智能体间的权重参数与激活值,存在显著差异。
如下图所示,根据初始化条件的不同,显著项的选择会发生剧烈变化。

然而即便如此,不同智能体筛选出的显著项却保持高度一致。
图 8 展示了各激活项的相对强度分布,可见清晰的带状分布特征------这些条纹标定了可用于构建系统描述理论的可能项。

然而,激活强度与权重的大幅波动表明:虽然所有 MASS 学习的理论都落在图 8 的暗纹区域内,但每位「AI 科学家」完全可能学会不同的理论形式。

**那么,**这些 AI 科学家是否在学习完全不同的内容?
下文将证明,事实并非如此。
研究者针对 MASS 模型输出层的激活矩阵,进行主成分分析 (PCA),可以发现:在大多数随机初始化情况下,仅第一主成分就能解释 90% 以上的方差。
将主成分降维后的 B×1 激活值,分布如图 14 所示------统计分布特性实际上与均匀分布等效。

这一发现,在相对论性弹簧质量系统(图 15b)和单摆系统(图 15a)的多智能体实验中得到进一步验证。

通过计算降维后 B×1 激活向量的相关系数(见图 9),可以发现:不同智能体间存在强相关性。

基于上述实验结果,可以得出明确结论:当针对同一物理系统训练时,不同智能体确实能够学到相同的底层理论。
这样,文章最初的核心问题就被证实了:两位 AI 科学家确实能够达成共识!

探索未知:Is 拉格朗日 all you need?
现在将分析拓展至完全普适的情形:让多个 MASS 智能体在多个物理系统上进行训练。
如果将现有框架拓展至尚未发现的系统时,会发生什么?
为此,研究者引入了合成系统。
如表 I 所示,通过定义每个系统的动能 T 与势能 V 进行系统改造,特别构建了两个附加合成系统。

核心实验结果如图 10 所示。
其中正确 MASS 智能体的数量定义为:在全部已见物理系统上,最大 MSE 损失低于 5×10⁻³ 的初始化种子数;而显著项的数量定义为:输出层 172 个项中,累计贡献 95% 总范数所需的最少项数。

随着训练系统数量的增加,始终保持正确的 MASS 智能体数量呈下降趋势(图 10 蓝色虚线)。
研究者在所有正确的 MASS 科学家上进行这种受限优化拟合,结果列于表 II 中。
与先前的观察结果一致,MASS 几乎可以直接被转换为拉格朗日理论,其 R^2 值普遍高于 0.9。

这种与拉格朗日理论之间的强相关性引出了一个更深层次的问题:我们是否还能找到第三种经典力学的描述方式?
至少,在 MASS 所探索的 T=172 个表达项的丰富理论空间中,答案似乎是否定的------拉格朗日描述就足够了。
AI 学会拓展到高维系统
尽管前文主要研究一维问题,但自然界中绝大多数物理系统都具有更高维度。
本节中,研究者以经典的双摆混沌系统为例展开研究------该系统的两个自由度分别为两个摆杆的摆动角度。实验结果表明,MASS 能有效拓展至高维场景。
研究团队成功复现了双摆系统的解析轨迹(图 12)。
实验实现了对摆动角度的精确预测,与拉格朗日神经网络的结果相当。

值得注意的是,尽管没有在架构中直接引入拉格朗日方程和欧拉 - 拉格朗日方程来强制能量守恒,MASS 仍能自主习得该特性!
这就跟团队的预期相一致了,他们发现:MASS 学到的理论形式,与拉格朗日量高度相似。

作者介绍
Xinghong Fu


麻省理工学院数学和 CS 专业的本科生,在 Max Tegmark 实验室做过本科研究员,工作为将机器学习应用到物理学领域。
刘子鸣(Ziming Liu)


刘子鸣,从事 AI 与科学交叉领域研究。
2021 年 2 月,他进入麻省理工学院,攻读物理学博士学位,预计今年 5 月毕业。
2020 年 9 月 - 2021 年 2 月,他在业界从事机器学习理论研究。
2016 年 9 月 - 2020 年 6,他就读于北京大学物理学专业。
Max Tegmark

Max Tegmark,MIT 的明星物理学教授。
他在获得皇家理工学院的物理学理学士学位后,于 1990 年离开了瑞典。之后,他就读于加利福尼亚大学伯克利分校,并于 1992 年获得硕士学位,1994 年获得博士学位。
博士毕业后,他先后在马克斯 - 普朗克物理研究所、普林斯顿高等研究院、宾夕法尼亚大学任职。2004 年至今,他一直在麻省理工学院物理系。
他专注于宇宙学和量子信息,但他当前研究的主要焦点是智能物理学。
参考资料: